1. 학습
  2. /
  3. 강의
  4. /
  5. scikit-learn으로 배우는 지도 학습

Connected

연습 문제

범주형 특성을 활용한 회귀 분석

앞서 각 노래 장르에 대한 이진 특성을 담은 music_dummies를 생성했습니다. 이제 릿지 회귀 모델을 구축하여 노래 인기도를 예측해 봅시다.

music_dummies는 Ridge, cross_val_score, numpy(np로 임포트), 그리고 KFold로 저장된 kf 객체와 함께 미리 로드되어 있습니다.

모델은 평균 RMSE로 평가됩니다. 이를 위해 먼저 각 폴드의 점수를 양수로 변환한 뒤 제곱근을 구해야 합니다. 이 지표는 모델 예측의 평균 오차를 나타내므로, 목표 변수인 "popularity"의 표준 편차와 비교할 수 있습니다.

지침

100 XP
  • X의 모든 특성을 포함하는 music_dummies와 y 열로 구성된 "popularity"를 각각 생성하세요.
  • alpha를 0.2로 설정하여 릿지 회귀 모델을 초기화하세요.
  • X를 y로 설정하고 음의 평균 제곱 오차를 scoring 지표로 사용하여 cv와 kf에 대해 릿지 모델로 교차 검증을 수행하세요.
  • 음수 scores를 양수로 변환한 뒤 제곱근을 취하여 RMSE 값을 출력하세요.