Menginisialisasi nilai yang hilang & iterasi atas variabel
Seperti yang baru saja Anda lihat, menjalankan impute_lm() mungkin tidak mengisi semua nilai yang hilang. Untuk memastikan semuanya terisi, Anda perlu menginisialisasi nilai yang hilang dengan metode sederhana, seperti imputasi hot-deck yang Anda pelajari di bab sebelumnya, yang pada dasarnya meneruskan nilai terakhir yang teramati.
Selain itu, satu kali imputasi biasanya tidak cukup. Metode tersebut berbasis pada nilai awal yang sederhana dan bisa bias. Pendekatan yang tepat adalah melakukan iterasi atas variabel, mengimpusikannya satu per satu pada lokasi yang awalnya hilang.
Dalam latihan ini, Anda akan terlebih dahulu menginisialisasi nilai yang hilang dengan imputasi hot-deck lalu melakukan perulangan lima kali atas air_temp dan humidity dari data tao untuk mengimpusikannya dengan regresi linear. Mari mulai!
Latihan ini adalah bagian dari kursus
Menangani Data Hilang dengan Imputasi di R
Petunjuk latihan
- Inisialisasi nilai yang hilang dengan imputasi
hotdeck(). - Buat mask boolean untuk lokasi
humidityyang awalnya hilang dan tetapkan kemissing_humidity. - Di dalam for-loop, setel
humidityditao_impmenjadiNApada tempat yang awalnya hilang menggunakan mask boolean yang telah Anda buat. - Di dalam for-loop, imputasikan
humidityditao_impdengan regresi linear, menggunakanyear,latitude,sea_surface_temp, danair_tempsebagai prediktor dan tetapkan kembali hasilnya ketao_imp.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Initialize missing values with hot-deck
tao_imp <- ___(tao)
# Create boolean masks for where air_temp and humidity are missing
missing_air_temp <- tao_imp$air_temp_imp
missing_humidity <- ___
for (i in 1:5) {
# Set air_temp to NA in places where it was originally missing and re-impute it
tao_imp$air_temp[missing_air_temp] <- NA
tao_imp <- impute_lm(tao_imp, air_temp ~ year + latitude + sea_surface_temp + humidity)
# Set humidity to NA in places where it was originally missing and re-impute it
tao_imp$humidity[___] <- ___
tao_imp <- ___(___, ___ ~ year + latitude + sea_surface_temp + ___)
}