1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning s balíčkem caret v R

Connected

cvičení

Imputace pomocí KNN

V předchozím cvičení jsi k doplnění chybějících hodnot v datasetu rakoviny prsu použil/a mediánovou imputaci – to ale není jediný způsob, jak s chybějícími daty pracovat.

Alternativou k mediánové imputaci je imputace pomocí k nejbližších sousedů (KNN). Jde o pokročilejší přístup, při kterém se chybějící hodnoty nahrazují hodnotami z jiných řádků, které jsou podobné aktuálnímu řádku. V praxi je implementace složitější než u jednoduché mediánové imputace, v caret ji ale snadno vyzkoušíš pomocí argumentu preProcess funkce train(). Stačí nastavit preProcess = "knnImpute" a metoda imputace použitá před trénováním modelu se změní.

Pokyny

100 XP

V tvém pracovním prostředí jsou načteny objekty breast_cancer_x a breast_cancer_y.

  • Pomocí funkce train() natrénuj model glm s názvem knn_model na datasetu rakoviny prsu.
  • K ošetření chybějících hodnot použij imputaci KNN.