Discrétiser toutes les variables
Au lieu de discrétiser les variables continues une par une, il est plus simple de les discrétiser automatiquement. Pour obtenir la liste de toutes les colonnes en Python, vous pouvez utiliser
variables = basetable.columns
Seules les variables continues doivent être discrétisées. Vous pouvez vérifier si une variable doit être discrétisée en contrôlant si elle possède plus qu’un nombre prédéfini de valeurs différentes.
Cet exercice fait partie du cours
Introduction à l’analytique prédictive en Python
Instructions
- Créez une liste
variablescontenant tous les noms de colonnes de la basetable. - Créez une boucle qui parcourt toutes les variables de la liste
variables. - Complétez l’instruction
ifde sorte que seules les variables ayant plus de 5 valeurs différentes soient discrétisées. - Regroupez les variables continues en 10 classes à l’aide de la méthode
qcut.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the columns in the original basetable
print(basetable.columns)
# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")
# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
if len(basetable.groupby(____))>____:
new_variable = "disc_" + variable
basetable[new_variable] = pd.qcut(basetable[____], ____)
# Print the columns in the new basetable
print(basetable.columns)