MulaiMulai sekarang secara gratis

Fitur yang Lebih Mendalam

Pada latihan sebelumnya, kita menunjukkan bahwa menggabungkan dua fitur dapat menghasilkan fitur tambahan yang baik untuk model prediktif. Pada latihan ini, Anda akan membuat fitur yang lebih “mendalam” dengan menggabungkan pengaruh tiga variabel menjadi satu. Lalu Anda akan memeriksa apakah fitur yang lebih dalam dan lebih rumit selalu menghasilkan prediktor yang lebih baik.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat fitur baru dengan menjumlahkan SQFTBELOWGROUND dan SQFTABOVEGROUND lalu buat kolom baru Total_SQFT
  • Menggunakan Total_SQFT, buat satu lagi fitur bernama BATHS_PER_1000SQFT dengan BATHSTOTAL. Pastikan Total_SQFT diskalakan ke satuan 1000
  • Gunakan describe() untuk meninjau nilai min, max, dan mean dari fitur terbaru kita BATHS_PER_1000SQFT. Apakah Anda melihat sesuatu yang janggal?
  • Buat dua jointplots() dengan Total_SQFT dan BATHS_PER_1000SQFT sebagai nilai \(x\) dan SALESCLOSEPRICE sebagai nilai \(y\) untuk melihat mana yang memiliki kecocokan R**2 yang lebih baik. Apakah fitur yang lebih rumit ini memiliki hubungan yang lebih kuat dengan SALESCLOSEPRICE?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create new feature by adding two features together
df = df.____(____, df[____] + df[____])

# Create additional new feature using previously created feature
df = df.____(____, df[____] / (df[____] / ____))
df[[____]].____().show()

# Sample and create pandas dataframe
pandas_df = df.sample(False, 0.5, 0).toPandas()

# Linear model plots
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
sns.jointplot(x=____, y=____, data=pandas_df, kind="reg", stat_func=r2)
plt.show()
Edit dan Jalankan Kode