Mengimputasi Data Hilang
Data hilang itu wajar. Jika kita berasumsi bahwa data kita hilang sepenuhnya secara acak, berarti kita menganggap data yang ada sudah mewakili populasi dengan baik. Jika hanya ada beberapa nilai yang hilang, kita bisa menghapusnya atau menggunakan mean atau median sebagai pengganti. Pada latihan ini, kita akan melihat 'PDOM': jumlah hari di pasar pada harga saat ini.
Latihan ini merupakan bagian dari kursus
Rekayasa Fitur dengan PySpark
Instruksi latihan
- Dapatkan jumlah nilai yang hilang pada kolom
'PDOM'menggunakanwhere(),isNull()dancount(). - Hitung nilai mean dari
'PDOM'menggunakan fungsi agregatmean(). - Gunakan
fillna()dengan nilai yang diatur ke mean'PDOM'dan terapkan hanya pada kolom'PDOM'menggunakan parametersubset.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Count missing rows
missing = df.____(df[____].____()).____()
# Calculate the mean value
col_mean = df.____({____: ____}).____()[0][0]
# Replacing with the mean value for that column
df.____(____, ____=[____])