CommencerCommencer gratuitement

Entraînez votre premier arbre de classification

Dans cet exercice, vous travaillerez avec l'ensemble de données sur le cancer du sein dans le Wisconsin (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data) provenant du référentiel de machine learning de l'UCI. Vous déterminerez si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean) et son nombre moyen de points concaves (concave points_mean).

L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % d'entraînement et 20 % de test. Les matrices de caractéristiques sont attribuées à X_train et X_test, tandis que les tableaux d'étiquettes sont attribués à y_train et y_test, où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Afin d'obtenir des résultats reproductibles, nous avons également défini une variable appelée SEED qui est définie sur 1.

Cet exercice fait partie du cours

Machine learning avec des modèles arborescents en Python

Afficher le cours

Instructions

  • Importez DecisionTreeClassifier à partir de sklearn.tree.

  • Instanciez une instance DecisionTreeClassifier dt de profondeur maximale égale à 6.

  • Ajustez dt à l'ensemble d'apprentissage.

  • Veuillez prédire les étiquettes de l'ensemble de test et attribuer le résultat à y_pred.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])
Modifier et exécuter le code