Fitur yang Lebih Mendalam
Pada latihan sebelumnya, kita menunjukkan bahwa menggabungkan dua fitur dapat menghasilkan fitur tambahan yang baik untuk model prediktif. Pada latihan ini, Anda akan membuat fitur yang lebih “mendalam” dengan menggabungkan pengaruh tiga variabel menjadi satu. Lalu Anda akan memeriksa apakah fitur yang lebih dalam dan lebih rumit selalu menghasilkan prediktor yang lebih baik.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Buat fitur baru dengan menjumlahkan
SQFTBELOWGROUNDdanSQFTABOVEGROUNDlalu buat kolom baruTotal_SQFT - Menggunakan
Total_SQFT, buat satu lagi fitur bernamaBATHS_PER_1000SQFTdenganBATHSTOTAL. PastikanTotal_SQFTdiskalakan ke satuan 1000 - Gunakan
describe()untuk meninjau nilai min, max, dan mean dari fitur terbaru kitaBATHS_PER_1000SQFT. Apakah Anda melihat sesuatu yang janggal? - Buat dua
jointplots()denganTotal_SQFTdanBATHS_PER_1000SQFTsebagai nilai \(x\) danSALESCLOSEPRICEsebagai nilai \(y\) untuk melihat mana yang memiliki kecocokan R**2 yang lebih baik. Apakah fitur yang lebih rumit ini memiliki hubungan yang lebih kuat denganSALESCLOSEPRICE?
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])
# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()
# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()
# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()