Melakukan Join pada Komponen Waktu
Sering kali Anda akan menggunakan komponen tanggal untuk melakukan join dengan himpunan informasi lain. Namun, pada contoh ini, kita perlu menggunakan data yang tersedia bagi mereka yang mempertimbangkan untuk membeli rumah. Artinya, kita harus menggunakan data pelaporan tahun sebelumnya untuk analisis kita.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Ekstrak tahun dari
LISTDATEmenggunakanyear()dan tempatkan ke kolom baru bernamalist_yeardenganwithColumn() - Buat kolom baru lain bernama
report_yeardengan mengurangkan 1 darilist_year - Buat kondisi join yang mencocokkan
df['CITY']denganprice_df['City']dandf['report_year']denganprice_df['Year'] - Lakukan left join antara
dfdanprice_df
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
from pyspark.sql.functions import year
# Initialize dataframes
df = real_estate_df
price_df = median_prices_df
# Create year column
df = df.____(____, ____(____))
# Adjust year to match
df = df.withColumn(____, (df[____] - 1))
# Create join condition
condition = [df[____] == price_df[____], df[____] == price_df[____]]
# Join the dataframes together
df = ____.join(____, on=condition, how=____)
# Inspect that new columns are available
df[['MedianHomeValue']].show()