1. Nauka
  2. /
  3. Kursy
  4. /
  5. Braki danych w Pythonie

Connected

ćwiczenie

Imputacja metodą KNN

Zbiory danych zawierają cechy, które są ze sobą skorelowane. Dlatego warto uwzględniać je przy imputacji brakujących wartości. Modele uczenia maszynowego wykorzystują cechy z ramki danych do wykrywania korelacji i wzorców, a następnie przewidują wartości wybranej cechy.

Jednym z najprostszych i najskuteczniejszych modeli jest algorytm K Najbliższych Sąsiadów (KNN). Wyszukuje on „K" punktów najbardziej podobnych do istniejących obserwacji, aby uzupełnić brakujące wartości.

W tym ćwiczeniu ramka danych diabetes została już wczytana. Użyj pakietu fancyimpute, aby uzupełnić brakujące wartości w ramce danych diabetes.

Instrukcje

100 XP
  • Zaimportuj KNN z fancyimpute.
  • Skopiuj diabetes do diabetes_knn_imputed.
  • Utwórz obiekt KNN() i przypisz go do knn_imputer.
  • Wykonaj imputację ramki danych diabetes_knn_imputed.