Arbres de décision
Votre tâche dans cet exercice est de construire un arbre de décision simple à l’aide du DecisionTreeClassifier de scikit-learn sur le jeu de données breast cancer fourni avec scikit-learn.
Ce jeu de données contient des mesures numériques de différentes dimensions de tumeurs individuelles (comme le périmètre et la texture) issues de biopsies mammaires, ainsi qu’une valeur de sortie unique (la tumeur est soit maligne, soit bénigne).
Nous avons préchargé le jeu de données d’échantillons (mesures) dans X et les valeurs cibles par tumeur dans y. Vous devez maintenant scinder le jeu de données complet en ensembles d’entraînement et de test, puis entraîner un DecisionTreeClassifier. Vous allez spécifier un paramètre appelé max_depth. De nombreux autres paramètres peuvent être modifiés dans ce modèle ; vous pouvez tous les consulter ici.
Cet exercice fait partie du cours
Extreme Gradient Boosting avec XGBoost
Instructions
- Importez :
train_test_splitdepuissklearn.model_selection.DecisionTreeClassifierdepuissklearn.tree.
- Créez des ensembles d’entraînement et de test de sorte que 20 % des données soient utilisées pour le test. Utilisez un
random_statede123. - Instanciez un
DecisionTreeClassifiernommédt_clf_4avec unmax_depthde4. Ce paramètre indique le nombre maximal de points de séparation successifs autorisés avant d’atteindre une feuille. - Ajustez le classificateur sur l’ensemble d’entraînement et prédisez les étiquettes de l’ensemble de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary modules
____
____
# Create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____)
# Instantiate the classifier: dt_clf_4
dt_clf_4 = ____
# Fit the classifier to the training set
____
# Predict the labels of the test set: y_pred_4
y_pred_4 = ____
# Compute the accuracy of the predictions: accuracy
accuracy = float(np.sum(y_pred_4==y_test))/y_test.shape[0]
print("accuracy:", accuracy)