MulaiMulai sekarang secara gratis

Trik & kiat hot-deck I: imputasi di dalam domain

Salah satu trik yang dapat membantu ketika imputasi hot-deck merusak hubungan antarkomponen variabel adalah melakukan imputasi di dalam domain. Artinya, jika variabel yang akan diimputasi berkorelasi dengan variabel kategorikal lain, Anda dapat menjalankan hot-deck secara terpisah untuk setiap kategorinya.

Sebagai contoh, Anda mungkin memperkirakan suhu udara bergantung pada waktu, mengingat kita melihat rata-rata suhu meningkat akibat pemanasan global. Indikator waktu yang tersedia pada data tao adalah variabel kategorikal, year. Mari kita periksa terlebih dahulu apakah rata-rata suhu udara berbeda pada masing-masing dari dua tahun yang dikaji, lalu jalankan hot-deck dalam domain per tahun. Terakhir, Anda akan membuat margin plot lagi untuk menilai kinerja imputasi.

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Hitung mean air_temp untuk setiap tahun, beri nama hasilnya average_air_temp dengan mengecualikan NA dalam perhitungan mean.
  • Imputasi nilai yang hilang pada air_temp dalam data tao di dalam domain year menggunakan imputasi hot-deck dan simpan hasilnya ke tao_imp.
  • Buat margin plot air_temp vs sea_surface_temp; ingat untuk menyertakan air_temp_imp dalam variabel yang Anda berikan ke fungsi pemetaan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Calculate mean air_temp per year
tao %>% 
	group_by(___) %>% 
	summarize(average_air_temp = mean(___, na.rm = ___))

# Hot-deck-impute air_temp in tao by year domain
tao_imp <- ___(___, variable = ___, ___ = ___)

# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>% 
	select(___, ___, ___) %>% 
	marginplot(___ = ___)
Edit dan Jalankan Kode