Se préparer à RandomizedSearch

Le semestre dernier, votre professeur a mis votre classe au défi de construire un modèle prédictif pour estimer les notes finales à l’examen. Vous avez essayé plusieurs modèles en sélectionnant aléatoirement des hyperparamètres. Cependant, l’exécution de chaque modèle vous obligeait à le coder individuellement.

Après avoir découvert RandomizedSearchCV(), vous reprenez le défi de votre professeur pour construire le meilleur modèle. Dans cet exercice, vous allez préparer les trois entrées nécessaires pour effectuer une recherche aléatoire.

Cet exercice fait partie du cours

<cours>Validation des modèles en Python</cours>

Instructions de l’exercice

Finalisez le dictionnaire de paramètres en ajoutant une liste pour le paramètre max_depth avec les options 2, 4, 6 et 8.
Créez un modèle de régression par forêt aléatoire avec dix arbres et un random_state de 1111.
Créez un scoreur d’erreur quadratique moyenne à utiliser.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import make_scorer, mean_squared_error

# Finish the dictionary by adding the max_depth parameter
param_dist = {"____": [____],
              "max_features": [2, 4, 6, 8, 10],
              "min_samples_split": [2, 4, 8, 16]}

# Create a random forest regression model
rfr = ____(____=10, ____=1111)

# Create a scorer to use (use the mean squared error)
scorer = ____(____)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Validation des modèles en Python</cours>

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Before we can validate models, we need an understanding of how to create and work with them. This chapter provides an introduction to running regression and classification models in scikit-learn. We will use this model building foundation throughout the remaining chapters.

Exercise 1: Introduction to model validation Exercise 2: Modeling steps Exercise 3: Seen vs. unseen data Exercise 4: Regression models Exercise 5: Set parameters and fit a model Exercise 6: Feature importances Exercise 7: Classification models Exercise 8: Classification predictions Exercise 9: Reusing model parameters Exercise 10: Random forest classifier

This chapter focuses on the basics of model validation. From splitting data into training, validation, and testing datasets, to creating an understanding of the bias-variance tradeoff, we build the foundation for the techniques of K-Fold and Leave-One-Out validation practiced in chapter three.

Exercise 1: Creating train, test, and validation datasets Exercise 2: Create one holdout set Exercise 3: Create two holdout sets Exercise 4: Why use holdout sets Exercise 5: Accuracy metrics: regression models Exercise 6: Mean absolute error Exercise 7: Mean squared error Exercise 8: Performance on data subsets Exercise 9: Classification metrics Exercise 10: Confusion matrices Exercise 11: Confusion matrices, again Exercise 12: Precision vs. recall Exercise 13: The bias-variance tradeoff Exercise 14: Error due to under/over-fitting Exercise 15: Am I underfitting?

Holdout sets are a great start to model validation. However, using a single train and test set if often not enough. Cross-validation is considered the gold standard when it comes to validating model performance and is almost always used when tuning model hyper-parameters. This chapter focuses on performing cross-validation to validate model performance.

Exercise 1: The problems with holdout sets Exercise 2: Two samples Exercise 3: Potential problems Exercise 4: Cross-validation Exercise 5: scikit-learn's KFold()Exercise 6: Using KFold indices Exercise 7: sklearn's cross_val_score()Exercise 8: scikit-learn's methods Exercise 9: Implement cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: When to use LOOCV Exercise 12: Leave-one-out-cross-validation

The first three chapters focused on model validation techniques. In chapter 4 we apply these techniques, specifically cross-validation, while learning about hyperparameter tuning. After all, model validation makes tuning possible and helps us select the overall best model.

Exercise 1: Introduction au réglage des hyperparamètres Exercise 2: Créer des hyperparamètres Exercise 3: Exécuter un modèle en utilisant des intervalles Exercise 4: RandomizedSearchCV Exercise 5: Se préparer à RandomizedSearch

Exercice actuel

Exercise 6: Implémenter RandomizedSearchCV Exercise 7: Sélection de votre modèle final Exercise 8: Meilleure précision de classification Exercise 9: Sélectionner le meilleur modèle en précision Exercise 10: Cours terminé !