MulaiMulai sekarang secara gratis

Menangani data hilang

Beberapa calon donor memiliki data age yang hilang. Sayangnya, R akan mengecualikan kasus mana pun dengan nilai NA saat membangun model regresi.

Salah satu solusi adalah mengganti, atau mengimputasi, nilai yang hilang dengan nilai taksiran. Setelah itu, Anda juga dapat membuat indikator data hilang untuk memodelkan kemungkinan bahwa kasus dengan data hilang berbeda dalam beberapa hal dari kasus tanpa data hilang.

Data frame donors telah dimuat di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Supervised Learning di R: Klasifikasi

Lihat Kursus

Petunjuk latihan

  • Gunakan summary() pada donors$age untuk menemukan usia rata-rata calon donor dengan data yang tidak hilang.
  • Gunakan ifelse() dan pengujian is.na(donors$age) untuk mengimputasi nilai rata-rata (dibulatkan ke 2 angka desimal) bagi kasus dengan age yang hilang. Pastikan juga untuk mengabaikan NA.
  • Buat variabel dummy biner bernama missing_age yang menunjukkan adanya data hilang menggunakan pemanggilan ifelse() lain dan pengujian yang sama.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Find the average age among non-missing values
summary(___)

# Impute missing age values with the mean age
donors$imputed_age <- ifelse(___)

# Create missing value indicator for age
donors$missing_age <- ___
Edit dan Jalankan Kode