CommencerCommencer gratuitement

Discrétiser toutes les variables

Au lieu de discrétiser les variables continues une par une, il est plus simple de les discrétiser automatiquement. Pour obtenir la liste de toutes les colonnes en Python, vous pouvez utiliser

variables  = basetable.columns

Seules les variables continues doivent être discrétisées. Vous pouvez vérifier si une variable doit être discrétisée en contrôlant si elle possède plus qu’un nombre prédéfini de valeurs différentes.

Cet exercice fait partie du cours

Introduction à l’analytique prédictive en Python

Afficher le cours

Instructions

  • Créez une liste variables contenant tous les noms de colonnes de la basetable.
  • Créez une boucle qui parcourt toutes les variables de la liste variables.
  • Complétez l’instruction if de sorte que seules les variables ayant plus de 5 valeurs différentes soient discrétisées.
  • Regroupez les variables continues en 10 classes à l’aide de la méthode qcut.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the columns in the original basetable
print(basetable.columns)

# Get all the variable names except "target"
variables = list(____.____)
variables.remove("target")

# Loop through all the variables and discretize in 10 bins if there are more than 5 different values
for variable in ____:
    if len(basetable.groupby(____))>____:
        new_variable = "disc_" + variable
        basetable[new_variable] = pd.qcut(basetable[____], ____)
        
# Print the columns in the new basetable
print(basetable.columns)
Modifier et exécuter le code