Mulai sekarangMulai gratis

Perbedaan

Mari jelajahi pembuatan fitur dari fitur yang sudah ada. Di wilayah Midwest di AS, banyak rumah keluarga tunggal memiliki lahan tambahan di sekelilingnya sebagai ruang hijau. Pada contoh ini Anda akan membuat fitur baru bernama 'YARD_SIZE', lalu melihat apakah fitur baru tersebut berkorelasi dengan variabel hasil kita.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Instruksi latihan

  • Buat kolom baru menggunakan withColumn() bernama LOT_SIZE_SQFT dan ubah ACRES menjadi kaki persegi dengan mengalikan dengan faktor konversi acres_to_sqfeet.
  • Buat kolom baru lainnya bernama YARD_SIZE dengan mengurangkan FOUNDATIONSIZE dari LOT_SIZE_SQFT.
  • Jalankan corr() pada masing-masing variabel independen YARD_SIZE, FOUNDATIONSIZE, LOT_SIZE_SQFT terhadap variabel dependen SALESCLOSEPRICE. Apakah fitur baru menunjukkan korelasi yang lebih kuat dibandingkan salah satu komponennya?

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Lot size in square feet
acres_to_sqfeet = 43560
df = df.____(____, df[____] * ____)

# Create new column YARD_SIZE
df = df.____(____, df[____] - df[____])

# Corr of ACRES vs SALESCLOSEPRICE
print("Corr of ACRES vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE
print("Corr of FOUNDATIONSIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
# Corr of YARD_SIZE vs SALESCLOSEPRICE
print("Corr of YARD_SIZE vs SALESCLOSEPRICE: " + str(df.____(____, ____)))
Edit dan Jalankan Kode