MulaiMulai sekarang secara gratis

Menginisialisasi nilai yang hilang & iterasi atas variabel

Seperti yang baru saja Anda lihat, menjalankan impute_lm() mungkin tidak mengisi semua nilai yang hilang. Untuk memastikan semuanya terisi, Anda perlu menginisialisasi nilai yang hilang dengan metode sederhana, seperti imputasi hot-deck yang Anda pelajari di bab sebelumnya, yang pada dasarnya meneruskan nilai terakhir yang teramati.

Selain itu, satu kali imputasi biasanya tidak cukup. Metode tersebut berbasis pada nilai awal yang sederhana dan bisa bias. Pendekatan yang tepat adalah melakukan iterasi atas variabel, mengimpusikannya satu per satu pada lokasi yang awalnya hilang.

Dalam latihan ini, Anda akan terlebih dahulu menginisialisasi nilai yang hilang dengan imputasi hot-deck lalu melakukan perulangan lima kali atas air_temp dan humidity dari data tao untuk mengimpusikannya dengan regresi linear. Mari mulai!

Latihan ini adalah bagian dari kursus

Menangani Data Hilang dengan Imputasi di R

Lihat Kursus

Petunjuk latihan

  • Inisialisasi nilai yang hilang dengan imputasi hotdeck().
  • Buat mask boolean untuk lokasi humidity yang awalnya hilang dan tetapkan ke missing_humidity.
  • Di dalam for-loop, setel humidity di tao_imp menjadi NA pada tempat yang awalnya hilang menggunakan mask boolean yang telah Anda buat.
  • Di dalam for-loop, imputasikan humidity di tao_imp dengan regresi linear, menggunakan year, latitude, sea_surface_temp, dan air_temp sebagai prediktor dan tetapkan kembali hasilnya ke tao_imp.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Initialize missing values with hot-deck
tao_imp <- ___(tao)

# Create boolean masks for where air_temp and humidity are missing
missing_air_temp <- tao_imp$air_temp_imp
missing_humidity <- ___

for (i in 1:5) {
  # Set air_temp to NA in places where it was originally missing and re-impute it
  tao_imp$air_temp[missing_air_temp] <- NA
  tao_imp <- impute_lm(tao_imp, air_temp ~ year + latitude + sea_surface_temp + humidity)
  # Set humidity to NA in places where it was originally missing and re-impute it
  tao_imp$humidity[___] <- ___
  tao_imp <- ___(___, ___ ~ year + latitude + sea_surface_temp + ___)
}
Edit dan Jalankan Kode