1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

学習用/テスト用の分割

Machine Learning モデルを客観的に評価するには、独立したデータでテストする必要があります。学習に使ったデータをそのまま使うことはできません。もちろん、そのデータに対しては(相対的に)良い性能が出てしまうからです。

ここではデータを次の2つに分割します。

  • 学習用データ(モデルの学習に使用)
  • テスト用データ(モデルの評価に使用)

注意: ここからは flights データの小さなサブセットを使います。演習を素早く実行するためです。

指示

100 XP
  • flights データを 80:20 の比率でランダムに2分割してください。再現性のため、分割時の乱数シードは 43 に設定します。
  • 学習用データに、元のデータのおよそ 80% のレコードが含まれていることを確認してください。