Instancier le modèle

Dans la série d'exercices suivante, vous diagnostiquerez les problèmes de biais et de variance d'un arbre de régression. L'arbre de régression que vous allez définir dans cet exercice sera utilisé pour prédire la consommation en miles par gallon (mpg) des voitures à partir de l'ensemble de données auto en utilisant toutes les caractéristiques disponibles.

Nous avons déjà traité les données et chargé la matrice des caractéristiques X et le tableau y dans votre espace de travail. De plus, la classe DecisionTreeRegressor a été importée depuis sklearn.tree.

Cet exercice fait partie du cours

<cours>Machine learning avec des modèles arborescents en Python</cours>

Instructions de l’exercice

Importez train_test_split à partir de sklearn.model_selection.
Veuillez répartir les données en deux parties : 70 % pour l'entraînement et 30 % pour le test.
Instanciez DecisionTreeRegressor avec une profondeur maximale de 4 et min_samples_leaf fixé à 0,26.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import train_test_split from sklearn.model_selection
____

# Set SEED for reproducibility
SEED = 1

# Split the data into 70% train and 30% test
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=SEED)

# Instantiate a DecisionTreeRegressor dt
dt = ____(____=____, ____=____, random_state=SEED)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Machine learning avec des modèles arborescents en Python</cours>

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Les arbres de classification et de régression (CART) sont un ensemble de modèles d'apprentissage supervisé utilisés pour les problèmes impliquant la classification et la régression. Dans ce chapitre, vous découvrirez l'algorithme CART.

Exercise 1: Arbre de décision pour la classification Exercise 2: Entraînez votre premier arbre de classification Exercise 3: Évaluer l'arbre de classification Exercise 4: Régression logistique et arbre de classification Exercise 5: Arbre de classification d’apprentissage Exercise 6: Développer un arbre de classification Exercise 7: Utilisation de l'entropie comme critère Exercise 8: Entropie vs index de Gini Exercise 9: Arbre de décision pour la régression Exercise 10: Entraînez votre premier arbre de régression Exercise 11: Évaluer l'arbre de régression Exercise 12: Régression linéaire et arbre de régression

Le compromis biais-variance est l'un des concepts fondamentaux du machine learning supervisé. Dans ce chapitre, vous apprendrez à diagnostiquer les problèmes de surajustement et de sous-ajustement. Vous découvrirez également le concept d'ensembling, qui consiste à agréger les prédictions de plusieurs modèles afin d'obtenir des prédictions plus fiables.

Exercise 1: Erreur de généralisation Exercise 2: Complexité, biais et variance Exercise 3: Surajustement et sous-ajustement Exercise 4: Identifier les problèmes de biais et de variance Exercise 5: Instancier le modèle

Exercice actuel

Exercise 6: Évaluer l'erreur de validation croisée à 10 blocs Exercise 7: Évaluer l'erreur de formation Exercise 8: Biais élevé ou variance élevée ?Exercise 9: Ensemble d’apprentissage Exercise 10: Définir l'ensemble Exercise 11: Évaluer les classificateurs individuels Exercise 12: Amélioration des performances grâce à un classificateur de vote

Le bagging est une méthode d'ensemble qui consiste à entraîner plusieurs fois le même algorithme à l'aide de différents sous-ensembles échantillonnés à partir des données d'entraînement. Dans ce chapitre, vous apprendrez comment utiliser le bagging pour créer un ensemble d'arbres. Vous découvrirez également comment l'algorithme des forêts aléatoires peut conduire à une plus grande diversité de l'ensemble grâce à la randomisation au niveau de chaque division dans les arbres formant l'ensemble.

Exercise 1: Bagging Exercise 2: Définir le classificateur bagging Exercise 3: Évaluer les performances bagging Exercise 4: Évaluation Out of Bag Exercise 5: Préparer le terrain Exercise 6: Score OOB vs score du jeu de test Exercise 7: Forêts aléatoires (RF)Exercise 8: Entraîner un régresseur RF Exercise 9: Évaluer le régresseur RF Exercise 10: Visualisation de l'importance des caractéristiques

Le boosting désigne une méthode d'ensemble dans laquelle plusieurs modèles sont entraînés séquentiellement, chaque modèle apprenant à partir des erreurs de ses prédécesseurs. Dans ce chapitre, vous découvrirez les deux méthodes de renforcement AdaBoost et Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Définir le classificateur AdaBoost Exercise 3: Entraîner le classificateur AdaBoost Exercise 4: Évaluer le classificateur AdaBoost Exercise 5: Amélioration de gradient (GB)Exercise 6: Définir le régresseur GB Exercise 7: Entraîner le régresseur GB Exercise 8: Évaluer le régresseur GB Exercise 9: Amélioration de gradient stochastique (SGB)Exercise 10: Régression avec SGB Exercise 11: Entraîner le régresseur SGB Exercise 12: Évaluer le régresseur SGB

Les hyperparamètres d'un modèle de machine learning sont des paramètres qui ne sont pas appris à partir des données. Ils doivent être définis avant d'adapter le modèle à l'ensemble d'apprentissage. Dans ce chapitre, vous apprendrez à ajuster les hyperparamètres d'un modèle basé sur un arbre à l'aide d'une validation croisée par recherche par grille.

Exercise 1: Réglage des hyperparamètres d'un CART Exercise 2: Hyperparamètres de l'arbre Exercise 3: Définir la grille d'hyperparamètres de l'arbre Exercise 4: Recherche de l'arbre optimal Exercise 5: Évaluer l'arbre optimal Exercise 6: Réglage des hyperparamètres d'un RF Exercise 7: Hyperparamètres des forêts aléatoires Exercise 8: Définir la grille d'hyperparamètres de RF Exercise 9: Recherche de la forêt optimale Exercise 10: Évaluer la forêt optimale Exercise 11: Félicitations !