Entraînez votre premier arbre de classification
Dans cet exercice, vous travaillerez avec l'ensemble de données sur le cancer du sein dans le Wisconsin (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data) provenant du référentiel d'apprentissage automatique de l'UCI. Vous déterminerez si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean) et son nombre moyen de points concaves (concave points_mean).
L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % d'entraînement et 20 % de test. Les matrices de caractéristiques sont attribuées à X_train et X_test, tandis que les tableaux d'étiquettes sont attribués à y_train et y_test, où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Afin d'obtenir des résultats reproductibles, nous avons également défini une variable appelée « SEED » qui est définie sur 1.
Cet exercice fait partie du cours
Machine learning avec des modèles arborescents en Python
Instructions
Importez
DecisionTreeClassifierà partir desklearn.tree.Instancier une instance d'
DecisionTreeClassifierdte de profondeur maximale égale à 6.Ajustez l'
dte à l'ensemble d'apprentissage.Veuillez prédire les étiquettes de l'ensemble de test et attribuer le résultat à
y_pred.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____
# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)
# Fit dt to the training set
____.____(____, ____)
# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])