1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dealing with Missing Data in Python

Connected

cvičení

Imputace metodou KNN

Datasety obsahují features, které spolu navzájem korelují. Proto je důležité brát je v úvahu při imputaci chybějících hodnot. Modely strojového učení využívají features v DataFrame k hledání korelací a vzorů a k predikci vybrané feature.

Jedním z nejjednodušších a nejefektivnějších modelů je K nejbližších sousedů (K Nearest Neighbors). Tento model najde „K" bodů nejpodobnějších stávajícím datovým bodům a pomocí nich imputuje chybějící hodnoty.

V tomto cvičení je DataFrame diabetes už načtený. Pomocí balíčku fancyimpute imputuj chybějící hodnoty v DataFrame diabetes.

Pokyny

100 XP
  • Importuj KNN z fancyimpute.
  • Zkopíruj diabetes do diabetes_knn_imputed.
  • Vytvoř objekt KNN() a přiřaď ho do knn_imputer.
  • Imputuj DataFrame diabetes_knn_imputed.