Mulai sekarangMulai gratis

Menggunakan Corr()

Pepatah lama 'Correlation does not imply Causation' adalah sebuah peringatan. Namun, korelasi dapat memberi kita arahan awal untuk menemukan fitur-fitur menjanjikan yang akan digunakan dalam model. Gunakan latihan ini untuk mulai membiasakan diri menelusuri himpunan data Anda untuk pertama kali dan mencari pola.

Sebuah daftar bernama columns yang berisi nama kolom telah disiapkan untuk Anda. Pada latihan ini, Anda akan menghitung korelasi antara kolom-kolom tersebut dan 'SALESCLOSEPRICE', lalu mencari nilai maksimumnya.

Latihan ini merupakan bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Instruksi latihan

  • Gunakan for loop untuk melakukan iterasi melalui columns.
  • Pada setiap siklus loop, hitung korelasi antara kolom saat ini dan 'SALESCLOSEPRICE' menggunakan metode corr().
  • Buat logika untuk memperbarui nilai korelasi maksimum yang teramati beserta kolomnya.
  • Cetak nama kolom yang memiliki korelasi maksimum dengan 'SALESCLOSEPRICE'.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Name and value of col with max corr
corr_max = 0
corr_max_col = columns[0]

# Loop to check all columns contained in list
for ____ in ____:
    # Check the correlation of a pair of columns
    corr_val = df.____(____, ____)
    # Logic to compare corr_max with current corr_val
    if ____ ____ ____:
        # Update the column name and corr value
        corr_max = corr_val
        corr_max_col = col

print(corr_max_col)
Edit dan Jalankan Kode