Imputasi rata-rata untuk temperatur
Imputasi rata-rata bisa berisiko. Jika variabel yang Anda imputasi dengan rata-rata berkorelasi dengan variabel lain, korelasi tersebut bisa rusak oleh nilai hasil imputasi. Anda sudah melihat tanda-tandanya pada latihan sebelumnya saat menganalisis variabel air_temp.
Untuk mengetahui apakah kekhawatiran ini beralasan, pada latihan ini Anda akan melakukan imputasi rata-rata pada air_temp, sambil membuat indikator biner untuk menandai lokasi nilai yang diimputasi. Ini akan berguna pada latihan berikutnya saat Anda menilai kinerja imputasi. Mari kita isi nilai-nilai yang hilang itu!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Dalam pipeline yang memodifikasi
tao, buat variabel baru bernamaair_temp_impyang bernilaiTRUEjikaair_temphilang danFALSEjika tidak. - Masih dalam pipeline yang sama, timpa
air_tempdengan nilai rata-ratanya sendiri setiap kali nilainya hilang dan biarkan tanpa perubahan jika tidak, lalu simpan hasilnya sebagaitao_imp.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
tao_imp <- tao %>%
# Create a binary indicator for missing values in air_temp
___(air_temp_imp = ifelse(___(___), ___, ___)) %>%
# Impute air_temp with its mean
___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))
# Print the first 10 rows of tao_imp
head(tao_imp, 10)