Preprocessing-methoden combineren

Het preProcess-argument van train() beperkt je niet tot alleen het imputeren van missende waarden. Het bevat ook allerlei andere preProcess-technieken die je leven als data scientist een stuk makkelijker maken. Je vindt de volledige lijst door ?preProcess te typen en de helppagina van deze functie te lezen.

Een set preprocessing-functies die vooral handig is voor regressiemodellen, is standaardiseren: centreren en schalen. Je centreert eerst door van elke waarde in een kolom het gemiddelde van die kolom af te trekken, daarna schaal je door te delen door de standaardafwijking.

Standaardiseren zet je gegevens zo om dat voor elke kolom het gemiddelde 0 is en de standaardafwijking 1. Dit helpt regressiemodellen om sneller een goede oplossing te vinden.

Deze oefening maakt deel uit van de cursus

Machine Learning met caret in R

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit glm with median imputation
model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print model

Code bewerken en uitvoeren