1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

列と行の削除

以前に CSV ファイルから航空便データを読み込みました。ここでは、あるフライトが遅延するかどうかを予測するモデルを作成していきます。

この演習では、次の手順でデータを絞り込みます。

  1. 情報量の少ない列を削除する
  2. 遅延の有無がわからない行を削除する

データは flights として利用できます。

Note:: 右側の IPython Shell の隣にある Slides パネルから、レッスンのスライドを見直すと役立つかもしれません。

指示

100 XP
  • flight 列を削除します。
  • delay 列に欠損値があるレコードがいくつあるかを調べます。
  • delay 列に欠損値があるレコードを削除します。
  • いずれかの列に欠損値があるレコードを削除し、残った行数を取得します。