Calculer les combinaisons possibles
Le data frame healthcare_cat_df contient des variables catégorielles sur des employés d’une entreprise de santé, ainsi qu’une indication de s’ils ont quitté l’entreprise ou non. Vous allez utiliser ce jeu de données pour déterminer le nombre de combinaisons des valeurs de variables présentes dans le jeu de données.
Lors de l’entraînement d’un modèle de Machine Learning, vous souhaitez que vos données contiennent de nombreuses observations de chaque combinaison. Le nombre de combinaisons permet donc d’établir une référence pour le nombre minimal d’observations à collecter afin de limiter les biais dans votre modèle.
Le package tidyverse a été chargé pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Calculez le nombre minimal d’observations nécessaire pour représenter toutes les combinaisons des valeurs de variables dans
healthcare_cat_df.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate the minimum number of value combinations
healthcare_cat_df %>%
___(___(___(), ~ ___(unique(.)))) %>%
___()