CommencerCommencez gratuitement

Entraînez votre premier arbre de classification

Dans cet exercice, vous travaillerez avec l'ensemble de données sur le cancer du sein dans le Wisconsin (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data) provenant du référentiel de machine learning de l'UCI. Vous déterminerez si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean) et son nombre moyen de points concaves (concave points_mean).

L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % d'entraînement et 20 % de test. Les matrices de caractéristiques sont attribuées à X_train et X_test, tandis que les tableaux d'étiquettes sont attribués à y_train et y_test, où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Afin d'obtenir des résultats reproductibles, nous avons également défini une variable appelée SEED qui est définie sur 1.

Cet exercice fait partie du cours

<cours>Machine learning avec des modèles arborescents en Python</cours>
Voir le cours

Instructions de l’exercice

  • Importez DecisionTreeClassifier à partir de sklearn.tree.

  • Instanciez une instance DecisionTreeClassifier dt de profondeur maximale égale à 6.

  • Ajustez dt à l'ensemble d'apprentissage.

  • Veuillez prédire les étiquettes de l'ensemble de test et attribuer le résultat à y_pred.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])
Modifier et exécuter le code