CommencerCommencer gratuitement

Combiner des méthodes de prétraitement

L’argument preProcess de train() ne se limite pas à l’imputation des valeurs manquantes. Il propose aussi une grande variété d’autres techniques de preProcess qui vous simplifient la vie en tant que data scientist. Vous pouvez en consulter la liste complète en tapant ?preProcess et en lisant la page d’aide de cette fonction.

Un ensemble de fonctions de prétraitement particulièrement utile pour ajuster des modèles de régression est la standardisation : centrage et mise à l’échelle. Vous commencez par centrer en soustrayant la moyenne de chaque colonne à chacune de ses valeurs, puis vous mettez à l’échelle en divisant par l’écart type.

La standardisation transforme vos données de sorte que, pour chaque colonne, la moyenne soit 0 et l’écart type 1. Cela facilite la recherche d’une bonne solution par les modèles de régression.

Cet exercice fait partie du cours

Machine Learning avec caret en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit glm with median imputation
model <- train(
  x = ___, 
  y = ___,
  method = ___,
  trControl = myControl,
  preProcess = ___
)

# Print model
Modifier et exécuter le code