1. Belajar
  2. /
  3. Kursus
  4. /
  5. Obsługa brakujących danych z imputacją w R

Connected

Latihan

Wybór liczby sąsiadów

Imputacja k-Najbliższych Sąsiadów (kNN) uzupełnia brakujące wartości w obserwacji na podstawie wartości pochodzących z k innych obserwacji, które są do niej najbardziej podobne. Liczba tych podobnych obserwacji – zwanych sąsiadami – jest parametrem, który należy wybrać z góry.

Jak dobrać k? Jednym ze sposobów jest wypróbowanie różnych wartości i sprawdzenie, jak wpływają na zależności między imputowanymi a obserwowanymi danymi.

Spróbujmy uzupełnić humidity w zbiorze danych tao przy użyciu trzech różnych wartości k i sprawdźmy, jak imputowane wartości pasują do relacji między humidity a sea_surface_temp.

Instruksi 1/3

undefined XP
  • 1
    • Wykonaj imputację kNN zmiennej humidity przy użyciu 30 sąsiadów i narysuj marginplot() dla sea_surface_temp względem humidity.
  • 2
    • Wykonaj imputację kNN zmiennej humidity przy użyciu 15 sąsiadów i narysuj wykres marginalny dla sea_surface_temp względem humidity.
  • 3
    • Wykonaj imputację kNN zmiennej humidity przy użyciu 5 sąsiadów i narysuj wykres marginalny dla sea_surface_temp względem humidity.