MulaiMulai sekarang secara gratis

Perbedaan

Mari jelajahi pembuatan fitur dari fitur yang sudah ada. Di wilayah Midwest di AS, banyak rumah keluarga tunggal memiliki lahan tambahan di sekelilingnya sebagai ruang hijau. Pada contoh ini Anda akan membuat fitur baru bernama 'YARD_SIZE', lalu melihat apakah fitur baru tersebut berkorelasi dengan variabel hasil kita.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Buat kolom baru menggunakan withColumn() bernama LOT_SIZE_SQFT dan ubah ACRES menjadi kaki persegi dengan mengalikan dengan faktor konversi acres_to_sqfeet.
  • Buat kolom baru lainnya bernama YARD_SIZE dengan mengurangkan FOUNDATIONSIZE dari LOT_SIZE_SQFT.
  • Jalankan corr() pada masing-masing variabel independen YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT terhadap variabel dependen SALESCLOSEPRICE. Apakah fitur baru menunjukkan korelasi yang lebih kuat dibandingkan salah satu komponennya?

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)

# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])

# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
Edit dan Jalankan Kode