Melakukan Join pada Komponen Waktu
Sering kali Anda akan menggunakan komponen tanggal untuk melakukan join dengan himpunan informasi lain. Namun, pada contoh ini, kita perlu menggunakan data yang tersedia bagi mereka yang mempertimbangkan untuk membeli rumah. Artinya, kita harus menggunakan data pelaporan tahun sebelumnya untuk analisis kita.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Ekstrak tahun dari
LISTDATEmenggunakanyear()dan tempatkan ke kolom baru bernamalist_yeardenganwithColumn() - Buat kolom baru lain bernama
report_yeardengan mengurangkan 1 darilist_year - Buat kondisi join yang mencocokkan
df['CITY']denganprice_df['City']dandf['report_year']denganprice_df['Year'] - Lakukan left join antara
dfdanprice_df
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pyspark.sql.functions import year
# Initialize dataframes
df = real_estate_df
price_df = median_prices_df
# Create year column
df = df.____(____, ____(____))
# Adjust year to match
df = df.withColumn(____, (df[____] - 1))
# Create join condition
condition = [df[____] == price_df[____], df[____] == price_df[____]]
# Join the dataframes together
df = ____.join(____, on=condition, how=____)
# Inspect that new columns are available
df[['MedianHomeValue']].show()