Menggabungkan dan membandingkan banyak model imputasi
Untuk mengevaluasi berbagai metode imputasi, kita perlu memasukkannya ke dalam satu dataframe. Selanjutnya, Anda akan membandingkan tiga pendekatan berbeda untuk menangani data hilang menggunakan himpunan data oceanbuoys.
- Metode pertama menggunakan hanya kasus lengkap dan telah dimuat sebagai
ocean_cc. - Metode kedua melakukan imputasi nilai menggunakan model linear dengan prediksi berbasis angin dan telah dimuat sebagai
ocean_imp_lm_wind.
Anda akan membuat himpunan data terimputasi ketiga, ocean_imp_lm_all, menggunakan model linear dan mengimputasi variabel sea_temp_c, air_temp_c, dan humidity menggunakan variabel wind_ew, wind_ns, year, latitude, longitude.
Anda kemudian akan menggabungkan semua himpunan data tersebut (ocean_cc, ocean_imp_lm_wind, dan ocean_imp_lm_all), menamainya bound_models.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di R
Petunjuk latihan
- Buat himpunan data terimputasi bernama
ocean_imp_lm_allmenggunakan model linear dan imputasikan variabelsea_temp_c,air_temp_c, danhumiditymenggunakan variabelwind_ew,wind_ns,year,latitude,longitude. - Gabungkan semua himpunan data tersebut ke dalam objek yang sama, menamainya
bound_models.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create an imputed dataset using a linear models
ocean_imp_lm_all <- bind_shadow(oceanbuoys) %>%
add_label_shadow() %>%
impute_lm(sea_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns + ___ + ___ + ___) %>%
impute_lm(humidity ~ wind_ew + wind_ns + ___ + ___ + ___)
# Bind the datasets
bound_models <- bind_rows(cc = ___,
imp_lm_wind = ___,
imp_lm_all = ___,
.id = "imp_model")
# Look at the models
bound_models