MulaiMulai sekarang secara gratis

Mengimputasi Data Hilang

Data hilang itu wajar. Jika kita berasumsi bahwa data kita hilang sepenuhnya secara acak, berarti kita menganggap data yang ada sudah mewakili populasi dengan baik. Jika hanya ada beberapa nilai yang hilang, kita bisa menghapusnya atau menggunakan mean atau median sebagai pengganti. Pada latihan ini, kita akan melihat 'PDOM': jumlah hari di pasar pada harga saat ini.

Latihan ini adalah bagian dari kursus

Rekayasa Fitur dengan PySpark

Lihat Kursus

Petunjuk latihan

  • Dapatkan jumlah nilai yang hilang pada kolom 'PDOM' menggunakan where(), isNull() dan count().
  • Hitung nilai mean dari 'PDOM' menggunakan fungsi agregat mean().
  • Gunakan fillna() dengan nilai yang diatur ke mean 'PDOM' dan terapkan hanya pada kolom 'PDOM' menggunakan parameter subset.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Count missing rows
missing = df.____(df[____].____()).____()

# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]

# Replacing with the mean value for that column
df.____(____, ____=[____])
Edit dan Jalankan Kode