MulaiMulai sekarang secara gratis

Melakukan Join pada Komponen Waktu

Sering kali Anda akan menggunakan komponen tanggal untuk melakukan join dengan himpunan informasi lain. Namun, pada contoh ini, kita perlu menggunakan data yang tersedia bagi mereka yang mempertimbangkan untuk membeli rumah. Artinya, kita harus menggunakan data pelaporan tahun sebelumnya untuk analisis kita.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Ekstrak tahun dari LISTDATE menggunakan year() dan tempatkan ke kolom baru bernama list_year dengan withColumn()
  • Buat kolom baru lain bernama report_year dengan mengurangkan 1 dari list_year
  • Buat kondisi join yang mencocokkan df['CITY'] dengan price_df['City'] dan df['report_year'] dengan price_df['Year']
  • Lakukan left join antara df dan price_df

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pyspark.sql.functions import year

# Initialize dataframes
df = real_estate_df
price_df = median_prices_df

# Create year column
df = df.____(____, ____(____))

# Adjust year to match
df = df.withColumn(____, (df[____] - 1))

# Create join condition
condition = [df[____] == price_df[____], df[____] == price_df[____]]

# Join the dataframes together
df = ____.join(____, on=condition, how=____)
# Inspect that new columns are available
df[['MedianHomeValue']].show()
Edit dan Jalankan Kode