1. 学习
  2. /
  3. 课程
  4. /
  5. Pythonで学ぶDaskによる並列プログラミング

Connected

练习

学習データを遅延的に変換する

Machine Learning では、入力変数の前処理はとても重要で、多くの場合モデルの精度向上につながります。前の演習では Spotify のデータはすでに前処理済みでしたが、自分で実施できることが大切です。

この演習では、配列の各列を平均0・標準偏差1になるように変換する StandardScaler() オブジェクトを使います。

Spotify の楽曲データの Dask DataFrame は dask_df として環境に用意されています。これは、目的変数である人気度スコアと、そのスコアを予測するために使う入力変数の両方を含みます。

说明

100 XP
  • dask_ml.preprocessing から StandardScaler() クラスをインポートします。
  • DataFrame から 'popularity' 列を選択し、変数 y に代入します。
  • StandardScaler オブジェクトを作成し、X データに対して fit します。
  • スケーラーを使って X を変換します。