Menggunakan simputation untuk mengimputasi data
Ada banyak paket imputasi di R. Kita akan berfokus pada penggunaan paket simputation, yang menyediakan antarmuka sederhana namun kuat untuk melakukan imputasi.
Membangun model imputasi yang baik sangat penting, tetapi ini adalah topik yang kompleks — upaya membangun model imputasi yang baik sebanding dengan membangun model statistik yang baik. Dalam kursus ini, kita akan berfokus pada cara mengevaluasi hasil imputasi.
Pertama, kita akan melihat penggunaan fungsi impute_lm() yang meng imputasi nilai berdasarkan model linear yang ditentukan.
Dalam latihan ini, kita akan menerapkan teknik penilaian sebelumnya pada data dengan impute_lm(), lalu mengembangkannya lebih lanjut pada pelajaran berikutnya.
Latihan ini adalah bagian dari kursus
Menangani Data Hilang di R
Petunjuk latihan
Menggunakan himpunan data oceanbuoys:
- Imputasi
humiditymenggunakanwind_ewdanwind_ns, dan lacak nilai hilang menggunakanadd_label_shadow(). - Plot nilai hasil imputasi untuk
air_temp_cdanhumidity, letakkan masing-masing pada sumbu x dan y, serta beri warna berdasarkanany_missing().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>%
bind_shadow() %>%
impute_lm(air_temp_c ~ wind_ew + wind_ns) %>%
impute_lm(___ ~ ___ + ___) %>%
add_label_shadow()
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___,
aes(x = ___, y = ___, color = any_missing)) +
geom_point()