1. 학습
  2. /
  3. 강의
  4. /
  5. Python에서 Dask로 병렬 프로그래밍

Connected

연습 문제

Dask로 선형 모델 학습하기

Dask는 메모리에 한 번에 담기엔 너무 큰 데이터셋으로 Machine Learning 모델을 학습할 때 사용할 수 있으며, 데이터 로딩, 전처리, 학습을 여러 스레드와 프로세스, 심지어 여러 컴퓨터에까지 분산할 수 있게 해줘요.

이전 장에서 사용했던 Spotify 데이터셋으로 노래의 인기도를 예측하는 Machine Learning 모델을 학습하는 과제가 주어졌어요. 데이터는 이미 지연 로딩되는 Dask DataFrame으로 불러와져 있어요. 입력 변수는 dask_X에 있으며, 노래의 템포(tempo)와 danceability 같은 몇 가지 수치형 컬럼을 포함해요. 타깃 값은 dask_y에 있으며, 각 노래의 인기도 점수예요.

지침

100 XP
  • sklearn.linear_model에서 SGDRegressor 클래스를, dask_ml.wrappers에서 Incremental 클래스를 임포트하세요.
  • SGDRegressor 선형 회귀 모델을 생성하세요.
  • Dask 데이터셋으로 학습할 수 있도록 Incremental 클래스로 모델을 래핑하고, scoring 매개변수를 'neg_mean_squared_error'로 설정하세요.
  • 데이터를 한 번만 순회하여 래핑된 모델을 학습하세요.