Menilai kualitas imputasi dengan margin plot
Pada latihan sebelumnya, Anda telah melakukan imputasi rata-rata untuk air_temp dan menambahkan variabel indikator untuk menandai nilai yang diimputasi, bernama air_temp_imp. Saatnya melihat seberapa baik hasilnya.
Saat memeriksa data tao, Anda mungkin memperhatikan bahwa data tersebut juga memiliki variabel bernama sea_surface_temp, yang secara wajar dapat diperkirakan berkorelasi positif dengan air_temp. Jika demikian, Anda akan berharap kedua suhu tersebut sama-sama tinggi atau sama-sama rendah pada saat yang sama. Mengimputasi suhu udara dengan nilai rata-rata ketika suhu laut sedang tinggi atau rendah akan merusak hubungan ini.
Untuk memastikannya, dalam latihan ini Anda akan memilih dua variabel suhu dan variabel indikator tersebut, lalu menggunakannya untuk menggambar margin plot. Mari kita nilai imputasi rata-rata ini!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Draw a margin plot of air_temp vs sea_surface_temp
tao_imp %>%
select(___, ___, ___) %>%
___(delimiter = ___)