Preprocessing-methoden combineren
Het preProcess-argument van train() beperkt je niet tot alleen het imputeren van missende waarden. Het bevat ook allerlei andere preProcess-technieken die je leven als data scientist een stuk makkelijker maken. Je vindt de volledige lijst door ?preProcess te typen en de helppagina van deze functie te lezen.
Een set preprocessing-functies die vooral handig is voor regressiemodellen, is standaardiseren: centreren en schalen. Je centreert eerst door van elke waarde in een kolom het gemiddelde van die kolom af te trekken, daarna schaal je door te delen door de standaardafwijking.
Standaardiseren zet je gegevens zo om dat voor elke kolom het gemiddelde 0 is en de standaardafwijking 1. Dit helpt regressiemodellen om sneller een goede oplossing te vinden.
Deze oefening maakt deel uit van de cursus
Machine Learning met caret in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit glm with median imputation
model <- train(
x = ___,
y = ___,
method = ___,
trControl = myControl,
preProcess = ___
)
# Print model