Kombinieren von Preprocessing-Methoden

Das Argument preProcess in train() beschränkt dich nicht nur auf das Imputieren fehlender Werte. Es bietet außerdem eine Vielzahl weiterer preProcess-Techniken, die dir als Data Scientist das Leben deutlich erleichtern. Du findest eine vollständige Liste, indem du ?preProcess eingibst und die Hilfeseite zu dieser Funktion liest.

Eine besonders nützliche Gruppe von Preprocessing-Funktionen für Regressionsmodelle ist die Standardisierung: Zentrieren und Skalieren. Zuerst zentrierst du, indem du von jedem Wert einer Spalte den Mittelwert dieser Spalte abziehst, anschließend skalierst du, indem du durch die Standardabweichung teilst.

Durch die Standardisierung werden deine Daten so transformiert, dass in jeder Spalte der Mittelwert 0 und die Standardabweichung 1 ist. Das erleichtert es Regressionsmodellen, eine gute Lösung zu finden.

Diese Übung ist Teil des Kurses

<Kurs>Maschinelles Lernen mit caret in R</Kurs>

Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Fit glm with median imputation
model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print model

Code bearbeiten und ausführen