Pipeline complet de feature engineering
Le package recipes est conçu pour regrouper plusieurs étapes de feature engineering dans un seul objet, ce qui facilite la maintenance des transformations de données dans un workflow de Machine Learning.
Dans cet exercice, vous allez entraîner un pipeline de feature engineering pour préparer les données de télécommunications en vue du modélisation.
Le tibble telecom_df, ainsi que vos jeux de données telecom_training et telecom_test des exercices précédents, ont été chargés dans votre environnement de travail.
Cet exercice fait partie du cours
Modéliser avec tidymodels en R
Instructions
- Créez une recette qui prédit
canceled_serviceà partir de toutes les variables prédictives des données d’entraînement. - Supprimez les variables prédictives corrélées en utilisant un seuil de 0,8.
- Normalisez tous les prédicteurs numériques.
- Créez des variables indicatrices (dummy) pour tous les prédicteurs nominaux.
- Entraînez votre recette sur les données d’entraînement et appliquez-la aux données de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a recipe that predicts canceled_service using the training data
telecom_recipe <- ___ %>%
# Remove correlated predictors
___ %>%
# Normalize numeric predictors
___ %>%
# Create dummy variables
___
# Train your recipe and apply it to the test data
telecom_recipe %>%
___ %>%
___