MulaiMulai sekarang secara gratis

Imputasi berbasis model dengan berbagai tipe variabel

Kerja bagus dalam menulis fungsi untuk menerapkan imputasi regresi logistik dengan pengambilan dari distribusi kondisional. Itu statistik tingkat lanjut yang sudah Anda koding! Pada latihan ini, Anda akan menggabungkan apa yang sudah Anda pelajari tentang imputasi berbasis model untuk mengimputasi berbagai jenis variabel dalam data tao.

Tugas Anda adalah melakukan iterasi atas variabel seperti yang sudah Anda lakukan di bab sebelumnya dan mengimputasi dua variabel:

  • is_hot, variabel biner baru yang dibuat dari air_temp, bernilai 1 jika air_temp berada pada atau di atas 26 derajat dan 0 jika sebaliknya;
  • humidity, variabel kontinu yang sudah Anda kenal.

Anda harus menggunakan fungsi regresi linear yang telah Anda pelajari sebelumnya, serta fungsi Anda sendiri untuk regresi logistik. Mari kita mulai!

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Atur is_hot menjadi NA pada tempat yang awalnya hilang.
  • Imputasi is_hot dengan regresi logistik, menggunakan sea_surface_temp sebagai satu-satunya prediktor; gunakan fungsi Anda impute_logreg().
  • Atur humidity menjadi NA pada tempat yang awalnya hilang.
  • Imputasi humidity dengan regresi linear, menggunakan sea_surface_temp dan air_temp sebagai prediktor.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)

# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp

for (i in 1:3) {
  # Set is_hot to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ ___)
  # Set humidity to NA in places where it was originally missing and re-impute it
  ___ <- NA
  tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}
Edit dan Jalankan Kode