MulaiMulai sekarang secara gratis

Menggunakan simputation untuk mengimputasi data

Ada banyak paket imputasi di R. Kita akan berfokus pada penggunaan paket simputation, yang menyediakan antarmuka sederhana namun kuat untuk melakukan imputasi.

Membangun model imputasi yang baik sangat penting, tetapi ini adalah topik yang kompleks — upaya membangun model imputasi yang baik sebanding dengan membangun model statistik yang baik. Dalam kursus ini, kita akan berfokus pada cara mengevaluasi hasil imputasi.

Pertama, kita akan melihat penggunaan fungsi impute_lm() yang meng imputasi nilai berdasarkan model linear yang ditentukan.

Dalam latihan ini, kita akan menerapkan teknik penilaian sebelumnya pada data dengan impute_lm(), lalu mengembangkannya lebih lanjut pada pelajaran berikutnya.

Latihan ini adalah bagian dari kursus

Menangani Data Hilang di R

Lihat Kursus

Petunjuk latihan

Menggunakan himpunan data oceanbuoys:

  • Imputasi humidity menggunakan wind_ew dan wind_ns, dan lacak nilai hilang menggunakan add_label_shadow().
  • Plot nilai hasil imputasi untuk air_temp_c dan humidity, letakkan masing-masing pada sumbu x dan y, serta beri warna berdasarkan any_missing().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Impute humidity and air temperature using wind_ew and wind_ns, and track missing values
ocean_imp_lm_wind <- ___ %>% 
    bind_shadow() %>%
    impute_lm(air_temp_c ~ wind_ew + wind_ns) %>% 
    impute_lm(___ ~ ___ + ___) %>%
    add_label_shadow()
    
# Plot the imputed values for air_temp_c and humidity, colored by missingness
ggplot(___, 
       aes(x = ___, y = ___, color = any_missing)) + 
  geom_point()
Edit dan Jalankan Kode