빅데이터/데이터 전처리
#6. Data Sampling
태 랑
2024. 7. 22. 21:13
반응형
1. Data Sampling
- Under, Over 2 종류의 데이터 샘플링이 존재한다
왜 필요한가?
- 데이터의 비율이 일정하지 않기 때문
랜덤 샘플링을 할때는 전/후 비교를 확실하게 해야한다
Why? 랜덤 샘플을 골랐으나, 데이터가 일방적으로 치우친경우 데이터의 설명력을 위반하는 행위이기 때문이다.
Near Miss Undersampling은 Near-Miss 기법으로 샘플링을 시도하지만,
제거할 대상을 선정하기 위해 거리를 계산하는 과정이 너무 오래걸린다.
Over Sampling은?
- 모수가 많은 쪽을 줄이는 기법
undersampling과는 반대로 비율이 낮은 데이터를 복제 (증강)
결정 경계가 땡겨지는 효과가 있지만, 그래도 " 여전히 모호하다 "
- SMOTE(Synthetic Minority Oversampling Technique)
무작위로 선택한 데이터에 KNN을 수행.
-> SMOTE는 비율이 낮은 데이터도 생성하지만, 높은 데이터도 생성할 수 있음!
하지만, 결론적으로 실무에서는 Over,Under 두가지 모두를 사용해야한다
-> SMOTE로 소수 클래스를 Over, TOMEK로 다수 클래스를 Under하여 결정경계를 뚜렷하게 만들어준다
반응형