LoslegenKostenlos loslegen

KNN-Imputation verwenden

In der vorherigen Übung hast du fehlende Werte im Brustkrebs-Datensatz mit Median-Imputation aufgefüllt, aber das ist nicht die einzige Methode zum Umgang mit fehlenden Daten.

Eine Alternative zur Median-Imputation ist die k-nearest neighbors (KNN)-Imputation. Das ist eine fortgeschrittenere Form der Imputation, bei der fehlende Werte durch Werte aus anderen Zeilen ersetzt werden, die der aktuellen Zeile ähnlich sind. Obwohl das in der Praxis deutlich komplexer umzusetzen ist als die einfache Median-Imputation, lässt es sich in caret sehr leicht mit dem Argument preProcess in train() ausprobieren. Du kannst einfach preProcess = "knnImpute" verwenden, um die Imputationsmethode vor dem Modell-Fitting zu ändern.

Diese Übung ist Teil des Kurses

Maschinelles Lernen mit caret in R

Kurs anzeigen

Anleitung zur Übung

breast_cancer_x und breast_cancer_y sind in deinem Arbeitsbereich geladen.

  • Verwende die Funktion train(), um ein glm-Modell namens knn_model auf den Brustkrebs-Datensatz zu fitten.
  • Verwende KNN-Imputation, um mit fehlenden Werten umzugehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Apply KNN imputation: knn_model
knn_model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print knn_model to console
Code bearbeiten und ausführen