Trik & kiat hot-deck II: mengurutkan berdasarkan variabel berkorelasi
Trik lain yang dapat meningkatkan kinerja imputasi hot-deck adalah mengurutkan data berdasarkan variabel yang berkorelasi dengan variabel yang ingin kita imputasi.
Sebagai contoh, pada semua margin plot yang baru-baru ini Anda buat, Anda melihat bahwa suhu udara sangat berkorelasi dengan suhu permukaan laut, yang memang masuk akal. Anda dapat memanfaatkan pengetahuan ini untuk memperbaiki imputasi hot-deck Anda. Jika Anda terlebih dahulu mengurutkan data berdasarkan sea_surface_temp, maka setiap nilai air_temp yang diimputasi akan berasal dari donor dengan sea_surface_temp yang serupa. Mari kita lihat bagaimana ini bekerja!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Lakukan imputasi hot-deck untuk nilai yang hilang pada
air_tempdalam datatao, dengan mengurutkan berdasarkansea_surface_temp, lalu simpan hasilnya ketao_imp. - Buat margin plot
air_tempvssea_surface_temp.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Hot-deck-impute air_temp in tao ordering by sea_surface_temp
tao_imp <- ___(___, ___ = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(air_temp, sea_surface_temp, air_temp_imp) %>%
___(___ = ___)