1. Nauka
  2. /
  3. Kursy
  4. /
  5. Braki danych w Pythonie

Connected

ćwiczenie

Imputacja wartości kategorycznych metodą KNN

Gdy wszystkie kolumny kategoryczne w DataFrame zostaną przekonwertowane na wartości porządkowe, zbiór danych będzie gotowy do imputacji. Imputacja z użyciem modeli statystycznych, takich jak K-Nearest Neighbors (KNN), daje lepsze wyniki.

W tym ćwiczeniu:

  1. Użyj funkcji KNN() z biblioteki fancyimpute, aby uzupełnić brakujące wartości w kodowanym porządkowo DataFrame users.
  2. Przekonwertuj wartości porządkowe z powrotem do odpowiadających im kategorii, korzystając z metody .inverse_transform() kodera porządkowego.

Pamiętaj: słownik ordinal_enc_dict przechowuje obiekty OrdinalEncoder() z biblioteki sklearn dla każdej kolumny, a DataFrame users zawiera zakodowane wartości porządkowe dla każdej kolumny.

Funkcja KNN(), słownik koderów ordinal_enc_dict oraz DataFrame users zostały już wczytane.

Instrukcje

100 XP
  • Dokonaj imputacji DataFrame users, używając metody fit_transform() obiektu KNN_imputer. Przekształcone wartości są zaokrąglane do liczb całkowitych.
  • Iteruj po kolumnach DataFrame users.
  • Wybierz obiekt OrdinalEncoder() dla danej kolumny ze słownika ordinal_enc_dict i wykonaj metodę .inverse_transform() na przekształconej tablicy reshaped.