MulaiMulai sekarang secara gratis

Menggunakan Corr()

Pepatah lama 'Correlation does not imply Causation' adalah sebuah peringatan. Namun, korelasi dapat memberi kita arahan awal untuk menemukan fitur-fitur menjanjikan yang akan digunakan dalam model. Gunakan latihan ini untuk mulai membiasakan diri menelusuri himpunan data Anda untuk pertama kali dan mencari pola.

Sebuah daftar bernama columns yang berisi nama kolom telah disiapkan untuk Anda. Pada latihan ini, Anda akan menghitung korelasi antara kolom-kolom tersebut dan 'SALESCLOSEPRICE', lalu mencari nilai maksimumnya.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Gunakan for loop untuk melakukan iterasi melalui columns.
  • Pada setiap siklus loop, hitung korelasi antara kolom saat ini dan 'SALESCLOSEPRICE' menggunakan metode corr().
  • Buat logika untuk memperbarui nilai korelasi maksimum yang teramati beserta kolomnya.
  • Cetak nama kolom yang memiliki korelasi maksimum dengan 'SALESCLOSEPRICE'.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Name and value of col with max corr
corr_max = 0
corr_max_col = columns[0]

# Loop to check all columns contained in list
for ____ in ____:
    # Check the correlation of a pair of columns
    corr_val = df.____(____, ____)
    # Logic to compare corr_max with current corr_val
    if ____ ____ ____:
        # Update the column name and corr value
        corr_max = corr_val
        corr_max_col = col

print(corr_max_col)
Edit dan Jalankan Kode