1. 학습
  2. /
  3. 강의
  4. /
  5. scikit-learn으로 배우는 지도 학습

Connected

연습 문제

회귀를 위한 중심화 및 스케일링

데이터 스케일링의 장점을 살펴봤으니, 이제 파이프라인을 사용하여 music_df의 특성을 전처리하고 라쏘(Lasso) 회귀 모델을 구축해 노래의 음량을 예측해 보겠습니다.

X_train 데이터셋에서 X_test, y_train, y_test, music_df가 생성되었으며, 타깃은 "loudness", 특성은 데이터셋의 나머지 모든 열입니다. Lasso와 Pipeline도 이미 임포트되어 있습니다.

"genre"는 이진 특성으로 변환되어 있으며, 1은 록 음악, 0은 그 외 장르를 나타냅니다.

지침

100 XP
  • StandardScaler를 임포트하세요.
  • 파이프라인 객체의 단계를 생성하세요. StandardScaler라는 이름의 "scaler" 객체와 "lasso"를 alpha로 설정한 0.5라는 이름의 라쏘 모델을 만드세요.
  • 데이터를 스케일링하고 라쏘 회귀 모델을 구축하는 단계를 포함한 파이프라인을 인스턴스화하세요.
  • 테스트 데이터에서 R-제곱값을 계산하세요.