Trik & kiat hot-deck I: imputasi di dalam domain
Salah satu trik yang dapat membantu ketika imputasi hot-deck merusak hubungan antarkomponen variabel adalah melakukan imputasi di dalam domain. Artinya, jika variabel yang akan diimputasi berkorelasi dengan variabel kategorikal lain, Anda dapat menjalankan hot-deck secara terpisah untuk setiap kategorinya.
Sebagai contoh, Anda mungkin memperkirakan suhu udara bergantung pada waktu, mengingat kita melihat rata-rata suhu meningkat akibat pemanasan global. Indikator waktu yang tersedia pada data tao adalah variabel kategorikal, year. Mari kita periksa terlebih dahulu apakah rata-rata suhu udara berbeda pada masing-masing dari dua tahun yang dikaji, lalu jalankan hot-deck dalam domain per tahun. Terakhir, Anda akan membuat margin plot lagi untuk menilai kinerja imputasi.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Hitung mean
air_tempuntuk setiap tahun, beri nama hasilnyaaverage_air_tempdengan mengecualikanNAdalam perhitungan mean. - Imputasi nilai yang hilang pada
air_tempdalam datataodi dalam domainyearmenggunakan imputasi hot-deck dan simpan hasilnya ketao_imp. - Buat margin plot
air_tempvssea_surface_temp; ingat untuk menyertakanair_temp_impdalam variabel yang Anda berikan ke fungsi pemetaan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate mean air_temp per year
tao %>%
group_by(___) %>%
summarize(average_air_temp = mean(___, na.rm = ___))
# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
marginplot(___ = ___)