1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

Spojení podle časových složek

Při práci s daty často využiješ datové složky pro spojení s dalšími datovými sadami. V tomto příkladu ale potřebujeme pracovat pouze s daty, která by byla dostupná potenciálním kupcům nemovitostí v daném okamžiku. Proto budeme pro analýzu používat data z předchozího roku.

Pokyny

100 XP
  • Extrahuj rok z LISTDATE pomocí year() a ulož ho do nového sloupce list_year pomocí withColumn()
  • Vytvoř další nový sloupec report_year tak, že od list_year odečteš 1
  • Vytvoř podmínku joinu, která páruje df['CITY'] s price_df['City'] a df['report_year'] s price_df['Year']
  • Proveď left join mezi df a price_df