CommencerCommencer gratuitement

Arbres de décision

Votre tâche dans cet exercice est de construire un arbre de décision simple à l’aide du DecisionTreeClassifier de scikit-learn sur le jeu de données breast cancer fourni avec scikit-learn.

Ce jeu de données contient des mesures numériques de différentes dimensions de tumeurs individuelles (comme le périmètre et la texture) issues de biopsies mammaires, ainsi qu’une valeur de sortie unique (la tumeur est soit maligne, soit bénigne).

Nous avons préchargé le jeu de données d’échantillons (mesures) dans X et les valeurs cibles par tumeur dans y. Vous devez maintenant scinder le jeu de données complet en ensembles d’entraînement et de test, puis entraîner un DecisionTreeClassifier. Vous allez spécifier un paramètre appelé max_depth. De nombreux autres paramètres peuvent être modifiés dans ce modèle ; vous pouvez tous les consulter ici.

Cet exercice fait partie du cours

Extreme Gradient Boosting avec XGBoost

Afficher le cours

Instructions

  • Importez :
    • train_test_split depuis sklearn.model_selection.
    • DecisionTreeClassifier depuis sklearn.tree.
  • Créez des ensembles d’entraînement et de test de sorte que 20 % des données soient utilisées pour le test. Utilisez un random_state de 123.
  • Instanciez un DecisionTreeClassifier nommé dt_clf_4 avec un max_depth de 4. Ce paramètre indique le nombre maximal de points de séparation successifs autorisés avant d’atteindre une feuille.
  • Ajustez le classificateur sur l’ensemble d’entraînement et prédisez les étiquettes de l’ensemble de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the necessary modules
____
____

# Create the training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____)

# Instantiate the classifier: dt_clf_4
dt_clf_4 = ____

# Fit the classifier to the training set
____

# Predict the labels of the test set: y_pred_4
y_pred_4 = ____

# Compute the accuracy of the predictions: accuracy
accuracy = float(np.sum(y_pred_4==y_test))/y_test.shape[0]
print("accuracy:", accuracy)
Modifier et exécuter le code