CommencerCommencer gratuitement

Pipeline complet de feature engineering

Le package recipes est conçu pour regrouper plusieurs étapes de feature engineering dans un seul objet, ce qui facilite la maintenance des transformations de données dans un workflow de Machine Learning.

Dans cet exercice, vous allez entraîner un pipeline de feature engineering pour préparer les données de télécommunications en vue du modélisation.

Le tibble telecom_df, ainsi que vos jeux de données telecom_training et telecom_test des exercices précédents, ont été chargés dans votre environnement de travail.

Cet exercice fait partie du cours

Modéliser avec tidymodels en R

Afficher le cours

Instructions

  • Créez une recette qui prédit canceled_service à partir de toutes les variables prédictives des données d’entraînement.
  • Supprimez les variables prédictives corrélées en utilisant un seuil de 0,8.
  • Normalisez tous les prédicteurs numériques.
  • Créez des variables indicatrices (dummy) pour tous les prédicteurs nominaux.
  • Entraînez votre recette sur les données d’entraînement et appliquez-la aux données de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a recipe that predicts canceled_service using the training data
telecom_recipe <- ___ %>% 
  # Remove correlated predictors
  ___ %>% 
  # Normalize numeric predictors
  ___ %>% 
  # Create dummy variables
  ___

# Train your recipe and apply it to the test data
telecom_recipe %>% 
  ___ %>% 
  ___
Modifier et exécuter le code