1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie maszynowe z caret w R

Connected

ćwiczenie

Imputacja metodą KNN

W poprzednim ćwiczeniu do uzupełnienia brakujących wartości w zbiorze danych o raku piersi użyłeś imputacji medianą – to jednak nie jedyna metoda radzenia sobie z brakami danych.

Alternatywą dla imputacji medianą jest imputacja metodą k najbliższych sąsiadów (KNN). To bardziej zaawansowane podejście: brakujące wartości są zastępowane wartościami z innych wierszy podobnych do bieżącego. Choć samodzielna implementacja tej metody bywa skomplikowana, w pakiecie caret można ją łatwo wypróbować za pomocą argumentu preProcess funkcji train(). Wystarczy użyć preProcess = "knnImpute", aby zmienić metodę imputacji stosowaną przed dopasowaniem modelu.

Instrukcje

100 XP

W przestrzeni roboczej masz załadowane obiekty breast_cancer_x oraz breast_cancer_y.

  • Użyj funkcji train(), aby dopasować model glm o nazwie knn_model do zbioru danych o raku piersi.
  • Do obsługi brakujących wartości zastosuj imputację metodą KNN.