1. 학습
  2. /
  3. 강의
  4. /
  5. Python에서 Dask로 병렬 프로그래밍

Connected

연습 문제

훈련 데이터를 지연 변환하기

입력 변수를 전처리하는 일은 Machine Learning에서 매우 중요하며, 대체로 모델의 정확도를 높여 줍니다. 직전 연습 문제들에서는 Spotify 데이터가 미리 전처리되어 있었지만, 직접 전처리하는 방법을 꼭 알아 두셔야 해요.

이 연습에서는 StandardScaler() 객체를 사용합니다. 이 스케일러는 배열의 각 열을 평균 0, 표준편차 1이 되도록 변환해요.

Spotify 곡의 Dask DataFrame은 dask_df로 환경에 준비되어 있습니다. 여기에는 예측 대상인 인기 점수(popularity)와, 이 점수를 예측하는 데 사용한 입력 변수들이 모두 들어 있어요.

지침

100 XP
  • dask_ml.preprocessing에서 StandardScaler() 클래스를 가져오세요.
  • DataFrame에서 'popularity' 열을 선택해 변수 y에 할당하세요.
  • StandardScaler 객체를 생성하고 X 데이터에 맞춰(fit) 주세요.
  • 스케일러를 사용해 X를 변환하세요.