Menangani data hilang
Beberapa calon donor memiliki data age yang hilang. Sayangnya, R akan mengecualikan kasus mana pun dengan nilai NA saat membangun model regresi.
Salah satu solusi adalah mengganti, atau mengimputasi, nilai yang hilang dengan nilai taksiran. Setelah itu, Anda juga dapat membuat indikator data hilang untuk memodelkan kemungkinan bahwa kasus dengan data hilang berbeda dalam beberapa hal dari kasus tanpa data hilang.
Data frame donors telah dimuat di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Supervised Learning di R: Klasifikasi
Petunjuk latihan
- Gunakan
summary()padadonors$ageuntuk menemukan usia rata-rata calon donor dengan data yang tidak hilang. - Gunakan
ifelse()dan pengujianis.na(donors$age)untuk mengimputasi nilai rata-rata (dibulatkan ke 2 angka desimal) bagi kasus denganageyang hilang. Pastikan juga untuk mengabaikanNA. - Buat variabel dummy biner bernama
missing_ageyang menunjukkan adanya data hilang menggunakan pemanggilanifelse()lain dan pengujian yang sama.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Find the average age among non-missing values
summary(___)
# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)
# Create missing value indicator for age
donors$missing_age <- ___