1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dealing with Missing Data in Python

Connected

cvičení

KNN imputace kategorických hodnot

Jakmile jsou všechny kategorické sloupce v DataFrame převedeny na ordinální hodnoty, je DataFrame připravený k imputaci. Imputace pomocí statistických modelů, jako je K-nejbližších sousedů (KNN), poskytuje přesnější výsledky.

V tomto cvičení:

  1. Použiješ funkci KNN() z knihovny fancyimpute k imputaci chybějících hodnot v ordinálně zakódovaném DataFrame users.
  2. Převedeš ordinální hodnoty zpět na původní kategorie pomocí metody .inverse_transform() ordinálního enkodéru.

Pamatuj, že ordinal_enc_dict uchovává OrdinalEncoder() z knihovny sklearn pro každý sloupec. DataFrame users uchovává zakódované (ordinální) hodnoty pro každý sloupec.

Funkce KNN(), slovník enkodérů ordinal_enc_dict a DataFrame users jsou již načteny.

Pokyny

100 XP
  • Imputuj DataFrame users pomocí metody fit_transform() objektu KNN_imputer. Transformované hodnoty se zaokrouhlí na celá čísla.
  • Projdi sloupce v DataFrame users v cyklu.
  • Ze slovníku ordinal_enc_dict vyber OrdinalEncoder() příslušného sloupce a proveď .inverse_transform() na přetvarovaném poli reshaped.