MulaiMulai sekarang secara gratis

Imputasi rata-rata untuk temperatur

Imputasi rata-rata bisa berisiko. Jika variabel yang Anda imputasi dengan rata-rata berkorelasi dengan variabel lain, korelasi tersebut bisa rusak oleh nilai hasil imputasi. Anda sudah melihat tanda-tandanya pada latihan sebelumnya saat menganalisis variabel air_temp.

Untuk mengetahui apakah kekhawatiran ini beralasan, pada latihan ini Anda akan melakukan imputasi rata-rata pada air_temp, sambil membuat indikator biner untuk menandai lokasi nilai yang diimputasi. Ini akan berguna pada latihan berikutnya saat Anda menilai kinerja imputasi. Mari kita isi nilai-nilai yang hilang itu!

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Dalam pipeline yang memodifikasi tao, buat variabel baru bernama air_temp_imp yang bernilai TRUE jika air_temp hilang dan FALSE jika tidak.
  • Masih dalam pipeline yang sama, timpa air_temp dengan nilai rata-ratanya sendiri setiap kali nilainya hilang dan biarkan tanpa perubahan jika tidak, lalu simpan hasilnya sebagai tao_imp.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

tao_imp <- tao %>% 
  # Create a binary indicator for missing values in air_temp
  ___(air_temp_imp = ifelse(___(___), ___, ___)) %>% 
  # Impute air_temp with its mean
  ___(air_temp = ifelse(___(___), ___(___, na.rm = ___), ___))

# Print the first 10 rows of tao_imp
head(tao_imp, 10)
Edit dan Jalankan Kode