1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

フライトデータの読み込み

この演習では、CSV ファイルから航空便フライトのデータを読み込みます。演習を素早く実行できるように、データは 50,000 件にまで絞り込まれています。同じ形式でより大きなデータセットはこちらから取得できます。

CSV 形式の注意点:

  • フィールドはカンマで区切られます(デフォルトのセパレーター)
  • 欠損値は文字列 'NA' で表されます。

データ辞書:

  • mon — 月(1〜12 の整数)
  • dom — 月内の日(1〜31 の整数)
  • dow — 曜日(整数;1 = 月曜、7 = 日曜)
  • carrier — 航空会社(IATA コード)
  • flight — 便名(フライト番号)
  • org — 出発空港(IATA コード)
  • mile — 距離(マイル)
  • depart — 出発時刻(10 進法の時刻)
  • duration — 予定所要時間(分)
  • delay — 遅延時間(分)

pyspark はインポート済みで、セッションも初期化されています。

注意: データは強めにダウンサンプリングされています。

指示

100 XP
  • flights.csv という CSV ファイルからデータを読み込みます。列のデータ型は自動推定し、欠損値を適切に処理してください。
  • データには何件のレコードがありますか?
  • 先頭の 5 件を確認しましょう。
  • 各列にはどのデータ型が割り当てられましたか?妥当な型に見えますか?