머신러닝/인턴십 프로젝트

##5. 회귀분석 및 R-squared

태 랑 2023. 3. 21. 14:15
반응형

현재 업무에서는 사용자의 운전 데이터 정도를 계산하고 있는데

유사한 자료를 비슷한 방식으로 다뤄보겠습니다.

 

 

데이터는 데이콘 Basic 전화 해지 여부 분류 AI 경진대회 - DACON 의 전화 데이터 입니다.

 

 

통화에 대한 전반적 자료입니다.

 

저는 우선 "주간통화시간" , "주간통화요금" 을 회귀분석해보겠습니다.

 

X_new 의 60 120 180은

1시간 2시간 3시간에 따른 통화요금 예측을 위한 수치입니다.

 

이정도의 결과를 볼 수 있는데

이게 정확한지 모델의 성능을 파악해봐야겠죠?

 

R-squared 값을 통해서 파악해보겠습니다

예측된 값과 실제 값의 차이를 평균 한 것입니다.

0~1 값을 가지는데 1에서 가까울수록 성능이 좋음을 뜻합니다.

 

역시 시간과 요금은 비례합니다

 

 

문제가 없지만 lasso 회귀분석에 대해서도 알아보기 위해

실습 해보겠습니다.

 

 

Lasso는 선형 회귀 모델 중 하나인데

다중공선성 문제를 해결하기 위해 사용됩니다

 

결과가 더 낮은 이유는

모든 변수가 종속변수에 영향을 미치는 경우인듯 합니다

반응형