Entraînez votre premier arbre de classification

Dans cet exercice, vous travaillerez avec l'ensemble de données sur le cancer du sein dans le Wisconsin (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data) provenant du référentiel de machine learning de l'UCI. Vous déterminerez si une tumeur est maligne ou bénigne en vous basant sur deux caractéristiques : le rayon moyen de la tumeur (radius_mean) et son nombre moyen de points concaves (concave points_mean).

L'ensemble de données est déjà chargé dans votre espace de travail et est divisé en 80 % d'entraînement et 20 % de test. Les matrices de caractéristiques sont attribuées à X_train et X_test, tandis que les tableaux d'étiquettes sont attribués à y_train et y_test, où la classe 1 correspond à une tumeur maligne et la classe 0 à une tumeur bénigne. Afin d'obtenir des résultats reproductibles, nous avons également défini une variable appelée SEED qui est définie sur 1.

Cet exercice fait partie du cours

<cours>Machine learning avec des modèles arborescents en Python</cours>

Instructions de l’exercice

Importez DecisionTreeClassifier à partir de sklearn.tree.
Instanciez une instance DecisionTreeClassifier dt de profondeur maximale égale à 6.
Ajustez dt à l'ensemble d'apprentissage.
Veuillez prédire les étiquettes de l'ensemble de test et attribuer le résultat à y_pred.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import DecisionTreeClassifier from sklearn.tree
from ____.____ import ____

# Instantiate a DecisionTreeClassifier 'dt' with a maximum depth of 6
dt = ____(____=____, random_state=SEED)

# Fit dt to the training set
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)
print(y_pred[0:5])

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Machine learning avec des modèles arborescents en Python</cours>

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Les arbres de classification et de régression (CART) sont un ensemble de modèles d'apprentissage supervisé utilisés pour les problèmes impliquant la classification et la régression. Dans ce chapitre, vous découvrirez l'algorithme CART.

Exercise 1: Arbre de décision pour la classification Exercise 2: Entraînez votre premier arbre de classification

Exercice actuel

Exercise 3: Évaluer l'arbre de classification Exercise 4: Régression logistique et arbre de classification Exercise 5: Arbre de classification d’apprentissage Exercise 6: Développer un arbre de classification Exercise 7: Utilisation de l'entropie comme critère Exercise 8: Entropie vs index de Gini Exercise 9: Arbre de décision pour la régression Exercise 10: Entraînez votre premier arbre de régression Exercise 11: Évaluer l'arbre de régression Exercise 12: Régression linéaire et arbre de régression

Le compromis biais-variance est l'un des concepts fondamentaux du machine learning supervisé. Dans ce chapitre, vous apprendrez à diagnostiquer les problèmes de surajustement et de sous-ajustement. Vous découvrirez également le concept d'ensembling, qui consiste à agréger les prédictions de plusieurs modèles afin d'obtenir des prédictions plus fiables.

Exercise 1: Erreur de généralisation Exercise 2: Complexité, biais et variance Exercise 3: Surajustement et sous-ajustement Exercise 4: Identifier les problèmes de biais et de variance Exercise 5: Instancier le modèle Exercise 6: Évaluer l'erreur de validation croisée à 10 blocs Exercise 7: Évaluer l'erreur de formation Exercise 8: Biais élevé ou variance élevée ?Exercise 9: Ensemble d’apprentissage Exercise 10: Définir l'ensemble Exercise 11: Évaluer les classificateurs individuels Exercise 12: Amélioration des performances grâce à un classificateur de vote

Le bagging est une méthode d'ensemble qui consiste à entraîner plusieurs fois le même algorithme à l'aide de différents sous-ensembles échantillonnés à partir des données d'entraînement. Dans ce chapitre, vous apprendrez comment utiliser le bagging pour créer un ensemble d'arbres. Vous découvrirez également comment l'algorithme des forêts aléatoires peut conduire à une plus grande diversité de l'ensemble grâce à la randomisation au niveau de chaque division dans les arbres formant l'ensemble.

Exercise 1: Bagging Exercise 2: Définir le classificateur bagging Exercise 3: Évaluer les performances bagging Exercise 4: Évaluation Out of Bag Exercise 5: Préparer le terrain Exercise 6: Score OOB vs score du jeu de test Exercise 7: Forêts aléatoires (RF)Exercise 8: Entraîner un régresseur RF Exercise 9: Évaluer le régresseur RF Exercise 10: Visualisation de l'importance des caractéristiques

Le boosting désigne une méthode d'ensemble dans laquelle plusieurs modèles sont entraînés séquentiellement, chaque modèle apprenant à partir des erreurs de ses prédécesseurs. Dans ce chapitre, vous découvrirez les deux méthodes de renforcement AdaBoost et Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Définir le classificateur AdaBoost Exercise 3: Entraîner le classificateur AdaBoost Exercise 4: Évaluer le classificateur AdaBoost Exercise 5: Amélioration de gradient (GB)Exercise 6: Définir le régresseur GB Exercise 7: Entraîner le régresseur GB Exercise 8: Évaluer le régresseur GB Exercise 9: Amélioration de gradient stochastique (SGB)Exercise 10: Régression avec SGB Exercise 11: Entraîner le régresseur SGB Exercise 12: Évaluer le régresseur SGB

Les hyperparamètres d'un modèle de machine learning sont des paramètres qui ne sont pas appris à partir des données. Ils doivent être définis avant d'adapter le modèle à l'ensemble d'apprentissage. Dans ce chapitre, vous apprendrez à ajuster les hyperparamètres d'un modèle basé sur un arbre à l'aide d'une validation croisée par recherche par grille.

Exercise 1: Réglage des hyperparamètres d'un CART Exercise 2: Hyperparamètres de l'arbre Exercise 3: Définir la grille d'hyperparamètres de l'arbre Exercise 4: Recherche de l'arbre optimal Exercise 5: Évaluer l'arbre optimal Exercise 6: Réglage des hyperparamètres d'un RF Exercise 7: Hyperparamètres des forêts aléatoires Exercise 8: Définir la grille d'hyperparamètres de RF Exercise 9: Recherche de la forêt optimale Exercise 10: Évaluer la forêt optimale Exercise 11: Félicitations !