CommencerCommencer gratuitement

Entraînez votre premier arbre de classification

Dans cet exercice, vous travaillerez avec l'ensemble de données sur le cancer du sein dans le Wisconsin (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data) provenant du référentiel d'apprentissage automatique de l'UCI. Vous déterminerez si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean) et son nombre moyen de points concaves (concave points_mean).

L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % d'entraînement et 20 % de test. Les matrices de caractéristiques sont attribuées à X_train et X_test, tandis que les tableaux d'étiquettes sont attribués à y_train et y_test, où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Afin d'obtenir des résultats reproductibles, nous avons également défini une variable appelée « SEED » qui est définie sur 1.

Cet exercice fait partie du cours

Machine learning avec des modèles arborescents en Python

Afficher le cours

Instructions

  • Importez DecisionTreeClassifier à partir de sklearn.tree.

  • Instancier une instance d'DecisionTreeClassifier dt e de profondeur maximale égale à 6.

  • Ajustez l'dt e à l'ensemble d'apprentissage.

  • Veuillez prédire les étiquettes de l'ensemble de test et attribuer le résultat à y_pred.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])
Modifier et exécuter le code