Perbedaan
Mari jelajahi pembuatan fitur dari fitur yang sudah ada. Di wilayah Midwest di AS, banyak rumah keluarga tunggal memiliki lahan tambahan di sekelilingnya sebagai ruang hijau. Pada contoh ini Anda akan membuat fitur baru bernama 'YARD_SIZE', lalu melihat apakah fitur baru tersebut berkorelasi dengan variabel hasil kita.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Buat kolom baru menggunakan
withColumn()bernamaLOT_SIZE_SQFTdan ubahACRESmenjadi kaki persegi dengan mengalikan dengan faktor konversiacres_to_sqfeet. - Buat kolom baru lainnya bernama
YARD_SIZEdengan mengurangkanFOUNDATIONSIZEdariLOT_SIZE_SQFT. - Jalankan
corr()pada masing-masing variabel independenYARD_SIZE,FOUNDATIONSIZE,LOT_SIZE_SQFTterhadap variabel dependenSALESCLOSEPRICE. Apakah fitur baru menunjukkan korelasi yang lebih kuat dibandingkan salah satu komponennya?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)
# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])
# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))