1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

時間要素での結合

日付の要素を使って、別の情報セットを結合することはよくあります。ただしこの例では、家の購入を検討している人が利用できたであろうデータを使う必要があります。つまり、分析には前年の報告データを使う必要があります。

指示

100 XP
  • year()を使ってLISTDATEから年を抽出し、withColumn()でlist_yearという新しい列に入れます。
  • list_yearから1を引いて、report_yearという別の新しい列を作成します。
  • df['CITY']とprice_df['City']、df['report_year']とprice_df['Year']が一致するような結合条件を作成します。
  • dfとprice_dfの間でleft joinを実行します。