Entraînez votre premier arbre de classification
Dans cet exercice, vous travaillerez avec le Wisconsin Breast Cancer Dataset du référentiel d'apprentissage automatique UCI. Vous pouvez prédire si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean
) et le nombre moyen de points concaves (concave points_mean
).
L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % de formation et 20 % de test. Les matrices de caractéristiques sont assignées à X_train
et X_test
, tandis que les tableaux d'étiquettes sont assignés à y_train
et y_test
où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Pour obtenir des résultats reproductibles, nous avons également défini une variable appelée SEED
qui est fixée à 1.
Cet exercice fait partie du cours
Apprentissage automatique avec des modèles arborescents en Python
Instructions
Importez
DecisionTreeClassifier
à partir desklearn.tree
.Instanciez un site
DecisionTreeClassifier
dt
d'une profondeur maximale égale à 6.Ajustez
dt
à l'ensemble de formation.Prédire les étiquettes de l'ensemble de test et attribuer le résultat à
y_pred
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____
# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)
# Fit dt to the training set
____.____(____, ____)
# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])