1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

Spark SQL の結合

複雑な結合は、SQL で書いたほうがずっと簡単なことがあります。この演習では、結合キーはすでに同じ形式と精度になっている前提で、結合自体は SparkSQL を使って行います。

指示

100 XP
  • DataFrame を createOrReplaceTempView で SparkSQL のテーブルとして登録し、それぞれ df と walk_df という名前を付けます。
  • 文字列 join_sql の中で、左側のテーブルを df、右側のテーブルを walk_df に設定します。
  • 結合を実行するために、文字列 join_sql に対して spark.sql() を呼び出します。