#6. Data Sampling

빅데이터/데이터 전처리

태 랑 2024. 7. 22. 21:13

1. Data Sampling

- Under, Over 2 종류의 데이터 샘플링이 존재한다

왜 필요한가?

- 데이터의 비율이 일정하지 않기 때문

랜덤 샘플링을 할때는 전/후 비교를 확실하게 해야한다

Why? 랜덤 샘플을 골랐으나, 데이터가 일방적으로 치우친경우 데이터의 설명력을 위반하는 행위이기 때문이다.

Near Miss Undersampling은 Near-Miss 기법으로 샘플링을 시도하지만,

제거할 대상을 선정하기 위해 거리를 계산하는 과정이 너무 오래걸린다.

Over Sampling은?

- 모수가 많은 쪽을 줄이는 기법

undersampling과는 반대로 비율이 낮은 데이터를 복제 (증강)

결정 경계가 땡겨지는 효과가 있지만, 그래도 " 여전히 모호하다 "

- SMOTE(Synthetic Minority Oversampling Technique)

무작위로 선택한 데이터에 KNN을 수행.

-> SMOTE는 비율이 낮은 데이터도 생성하지만, 높은 데이터도 생성할 수 있음!

하지만, 결론적으로 실무에서는 Over,Under 두가지 모두를 사용해야한다

-> SMOTE로 소수 클래스를 Over, TOMEK로 다수 클래스를 Under하여 결정경계를 뚜렷하게 만들어준다