1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶDaskによる並列プログラミング

Connected

演習

Dask を使って線形モデルを学習する

Dask を使うと、メモリに収まりきらない巨大なデータセットでも Machine Learning モデルを学習できます。データの読み込み、前処理、学習を複数のスレッドやプロセス、さらには複数のコンピュータに分散させることができます。

あなたは、これまでの章で使った Spotify データセットを用いて、楽曲の人気度を予測する Machine Learning モデルを学習する役割を担当しています。データはすでに遅延評価の Dask DataFrame として読み込まれています。入力変数は dask_X にあり、楽曲のテンポやダンスしやすさなどの数値列が含まれます。目的変数は dask_y にあり、各楽曲の人気度スコアです。

指示

100 XP
  • sklearn.linear_model から SGDRegressor クラスを、dask_ml.wrappers から Incremental クラスをインポートします。
  • SGDRegressor を使って線形回帰モデルを作成します。
  • Incremental クラスでモデルをラップし、Dask のデータセットで学習できるようにし、scoring パラメータを 'neg_mean_squared_error' に設定します。
  • データを1回だけループして、ラップしたモデルを学習させます。