Kombinieren von Preprocessing-Methoden
Das Argument preProcess in train() beschränkt dich nicht nur auf das Imputieren fehlender Werte. Es bietet außerdem eine Vielzahl weiterer preProcess-Techniken, die dir als Data Scientist das Leben deutlich erleichtern. Du findest eine vollständige Liste, indem du ?preProcess eingibst und die Hilfeseite zu dieser Funktion liest.
Eine besonders nützliche Gruppe von Preprocessing-Funktionen für Regressionsmodelle ist die Standardisierung: Zentrieren und Skalieren. Zuerst zentrierst du, indem du von jedem Wert einer Spalte den Mittelwert dieser Spalte abziehst, anschließend skalierst du, indem du durch die Standardabweichung teilst.
Durch die Standardisierung werden deine Daten so transformiert, dass in jeder Spalte der Mittelwert 0 und die Standardabweichung 1 ist. Das erleichtert es Regressionsmodellen, eine gute Lösung zu finden.
Diese Übung ist Teil des Kurses
Maschinelles Lernen mit caret in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit glm with median imputation
model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print model