Imputasi berbasis model dengan berbagai tipe variabel
Kerja bagus dalam menulis fungsi untuk menerapkan imputasi regresi logistik dengan pengambilan dari distribusi kondisional. Itu statistik tingkat lanjut yang sudah Anda koding! Pada latihan ini, Anda akan menggabungkan apa yang sudah Anda pelajari tentang imputasi berbasis model untuk mengimputasi berbagai jenis variabel dalam data tao.
Tugas Anda adalah melakukan iterasi atas variabel seperti yang sudah Anda lakukan di bab sebelumnya dan mengimputasi dua variabel:
is_hot, variabel biner baru yang dibuat dariair_temp, bernilai 1 jikaair_tempberada pada atau di atas 26 derajat dan 0 jika sebaliknya;humidity, variabel kontinu yang sudah Anda kenal.
Anda harus menggunakan fungsi regresi linear yang telah Anda pelajari sebelumnya, serta fungsi Anda sendiri untuk regresi logistik. Mari kita mulai!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Atur
is_hotmenjadiNApada tempat yang awalnya hilang. - Imputasi
is_hotdengan regresi logistik, menggunakansea_surface_tempsebagai satu-satunya prediktor; gunakan fungsi Andaimpute_logreg(). - Atur
humiditymenjadiNApada tempat yang awalnya hilang. - Imputasi
humiditydengan regresi linear, menggunakansea_surface_tempdanair_tempsebagai prediktor.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize missing values with hot-deck
tao_imp <- hotdeck(tao)
# Create boolean masks for where is_hot and humidity are missing
missing_is_hot <- tao_imp$is_hot_imp
missing_humidity <- tao_imp$humidity_imp
for (i in 1:3) {
# Set is_hot to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ ___)
# Set humidity to NA in places where it was originally missing and re-impute it
___ <- NA
tao_imp <- ___(tao_imp, ___ ~ sea_surface_temp + ___)
}