KNN-Imputation verwenden
In der vorherigen Übung hast du fehlende Werte im Brustkrebs-Datensatz mit Median-Imputation aufgefüllt, aber das ist nicht die einzige Methode zum Umgang mit fehlenden Daten.
Eine Alternative zur Median-Imputation ist die k-nearest neighbors (KNN)-Imputation. Das ist eine fortgeschrittenere Form der Imputation, bei der fehlende Werte durch Werte aus anderen Zeilen ersetzt werden, die der aktuellen Zeile ähnlich sind. Obwohl das in der Praxis deutlich komplexer umzusetzen ist als die einfache Median-Imputation, lässt es sich in caret sehr leicht mit dem Argument preProcess in train() ausprobieren. Du kannst einfach preProcess = "knnImpute" verwenden, um die Imputationsmethode vor dem Modell-Fitting zu ändern.
Diese Übung ist Teil des Kurses
<Kurs>Maschinelles Lernen mit caret in R</Kurs>Übungsanweisungen
breast_cancer_x und breast_cancer_y sind in deinem Arbeitsbereich geladen.
- Verwende die Funktion
train(), um einglm-Modell namensknn_modelauf den Brustkrebs-Datensatz zu fitten. - Verwende KNN-Imputation, um mit fehlenden Werten umzugehen.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Apply KNN imputation: knn_model
knn_model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print knn_model to console