Mengimputasi Data Hilang
Data hilang itu wajar. Jika kita berasumsi bahwa data kita hilang sepenuhnya secara acak, berarti kita menganggap data yang ada sudah mewakili populasi dengan baik. Jika hanya ada beberapa nilai yang hilang, kita bisa menghapusnya atau menggunakan mean atau median sebagai pengganti. Pada latihan ini, kita akan melihat 'PDOM': jumlah hari di pasar pada harga saat ini.
Latihan ini adalah bagian dari kursus
Rekayasa Fitur dengan PySpark
Petunjuk latihan
- Dapatkan jumlah nilai yang hilang pada kolom
'PDOM'menggunakanwhere(),isNull()dancount(). - Hitung nilai mean dari
'PDOM'menggunakan fungsi agregatmean(). - Gunakan
fillna()dengan nilai yang diatur ke mean'PDOM'dan terapkan hanya pada kolom'PDOM'menggunakan parametersubset.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Count missing rows
missing = df.____(df[____].____()).____()
# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]
# Replacing with the mean value for that column
df.____(____, ____=[____])