1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

結合 II

PySpark では、結合は DataFrame メソッドの .join() で行います。このメソッドは3つの引数を取ります。1つ目は、最初の DataFrame と結合したい2つ目の DataFrame です。2つ目の引数 on には、キー列名(複数可)を文字列で指定します。キー列名は各テーブルで同一である必要があります。3つ目の引数 how には、実行する結合の種類を指定します。本コースでは常に how="leftouter" を使用します。

flights データセットと、新しいデータセット airports はすでにワークスペースに用意されています。

指示

100 XP
  • .show() を呼び出して airports DataFrame を確認し、airports を flights テーブルに結合するためのキー列がどれかを把握します。
  • airports.withColumnRenamed("faa", "dest") の結果を airports に再代入して、airports の faa 列名を dest に変更します。
  • .join() を flights に対して呼び出し、dest 列で airports DataFrame と結合して、結果を flights_with_airports として保存します。
    • 1つ目の引数はもう一方の DataFrame、つまり airports にします。
    • on 引数にはキー列を指定します。
    • how 引数には "leftouter" を指定します。
  • データを再確認するために flights_with_airports に対して .show() を呼び出します。追加された新しい情報に注目してください。