1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

Boolean を作成する

はい/いいえで答える質問(フライトは遅延したか?)をモデル化するとします。しかし、手元のデータには各フライトの到着遅延が分単位で入っています。そのため、フライトが遅延したかどうかを示す boolean 列を作成する必要があります。

指示

100 XP
  • .withColumn() メソッドを使って列 is_late を作成します。この列は model_data.arr_delay > 0 と等しくします。
  • この列をモデルで使えるように整数型に変換し、label という名前を付けます(これは Spark の Machine Learning ルーチンで応答変数の既定名です)。
  • 欠損値を除外します(この処理はすでに行っています)。