1. Nauka
  2. /
  3. Kursy
  4. /
  5. Inżynieria cech z PySpark

Connected

ćwiczenie

Łączenie na podstawie składowych daty

Często będziesz używać składowych daty, aby połączyć zbiory danych z dodatkowymi informacjami. W tym przykładzie potrzebujemy danych, które byłyby dostępne dla osób rozważających zakup domu. Oznacza to, że do analizy użyjemy danych raportowych z poprzedniego roku.

Instrukcje

100 XP
  • Wyodrębnij rok z kolumny LISTDATE za pomocą funkcji year() i zapisz go w nowej kolumnie o nazwie list_year, korzystając z withColumn()
  • Utwórz kolejną nową kolumnę o nazwie report_year, odejmując 1 od wartości list_year
  • Utwórz warunek złączenia, który dopasowuje df['CITY'] do price_df['City'] oraz df['report_year'] do price_df['Year']
  • Wykonaj lewe złączenie (left join) między df a price_df