1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行特征工程

Connected

道练习

按时间组件进行连接

在很多情况下,您会用日期的组成部分来连接其他信息集。不过在这个示例中,我们需要使用当时打算买房的人可以获得的数据。也就是说,分析时要使用上一年度的报告数据。

说明

100 XP
  • 使用 year() 从 LISTDATE 中提取年份,并通过 withColumn() 放入名为 list_year 的新列中。
  • 通过在 list_year 的基础上减去 1,创建名为 report_year 的另一列。
  • 创建连接条件,使 df['CITY'] 与 price_df['City'] 匹配,且 df['report_year'] 与 price_df['Year'] 匹配。
  • 在 df 与 price_df 之间执行一次 left join。