KNN-Imputation verwenden

In der vorherigen Übung hast du fehlende Werte im Brustkrebs-Datensatz mit Median-Imputation aufgefüllt, aber das ist nicht die einzige Methode zum Umgang mit fehlenden Daten.

Eine Alternative zur Median-Imputation ist die k-nearest neighbors (KNN)-Imputation. Das ist eine fortgeschrittenere Form der Imputation, bei der fehlende Werte durch Werte aus anderen Zeilen ersetzt werden, die der aktuellen Zeile ähnlich sind. Obwohl das in der Praxis deutlich komplexer umzusetzen ist als die einfache Median-Imputation, lässt es sich in caret sehr leicht mit dem Argument preProcess in train() ausprobieren. Du kannst einfach preProcess = "knnImpute" verwenden, um die Imputationsmethode vor dem Modell-Fitting zu ändern.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit caret in R</Kurs>

Kurs ansehen

Übungsanweisungen

breast_cancer_x und breast_cancer_y sind in deinem Arbeitsbereich geladen.

Verwende die Funktion train(), um ein glm-Modell namens knn_model auf den Brustkrebs-Datensatz zu fitten.
Verwende KNN-Imputation, um mit fehlenden Werten umzugehen.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console

Code bearbeiten und ausführen