Prédire le churn avec un arbre de décision

Vous allez maintenant capitaliser sur les compétences acquises dans l’exercice précédent et construire un arbre de décision plus complexe avec des paramètres supplémentaires pour prédire le churn client. Vous approfondirez ce problème de prédiction du churn au chapitre suivant. Ici, vous allez exécuter à nouveau le classifieur d’arbre de décision sur vos données d’entraînement, prédire le taux de churn sur des données non vues (test) et évaluer la précision du modèle sur les deux jeux de données.

Le module tree de la bibliothèque sklearn a été chargé pour vous, ainsi que la fonction accuracy_score depuis sklearn.metrics. Les variables de caractéristiques et la cible ont aussi été importées sous les noms train_X, train_Y pour les données d’entraînement, et test_X, test_Y pour les données de test.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>

Voir le cours

Instructions de l’exercice

Initialisez un arbre de décision avec une profondeur maximale fixée à 7 et en utilisant le critère gini.
Ajustez le modèle sur les données d’entraînement.
Prédisez les valeurs sur le jeu de test.
Affichez les valeurs de précision pour les jeux d’entraînement et de test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize the Decision Tree
clf = tree.DecisionTreeClassifier(max_depth = ___, 
               criterion = 'gini', 
               splitter  = 'best')

# Fit the model to the training data
clf = clf.___(train_X, train_Y)

# Predict the values on test dataset
pred_Y = clf.___(test_X)

# Print accuracy values
print("Training accuracy: ", np.round(clf.score(train_X, train_Y), 3)) 
print("Test accuracy: ", np.round(___(test_Y, pred_Y), 3))

Modifier et exécuter le code