Centrage et mise à l’échelle pour la classification

Vous allez maintenant réunir la mise à l’échelle et la construction de modèles dans un pipeline de validation croisée.

Votre tâche consiste à créer un pipeline pour mettre à l’échelle les caractéristiques de l’ensemble de données music_df et à effectuer une validation croisée par recherche de grille à l’aide d’un modèle de régression logistique avec différentes valeurs pour l’hyperparamètre C. La variable cible est ici "genre", qui contient une valeur binaire : 1 pour le rock et 0 pour tout autre genre.

StandardScaler, LogisticRegression et GridSearchCV ont été importés pour vous.

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

Instructions de l’exercice

Construisez les étapes du pipeline : un objet StandardScaler() nommé "scaler" et un modèle de régression logistique nommé "logreg".
Créez le fichier parameters, en recherchant 20 valeurs flottantes équidistantes allant de 0.001 à 1.0 pour l’hyperparamètre C du modèle de régression logistique dans le pipeline.
Instanciez l’objet de recherche de grille.
Ajustez l’objet de recherche de grille aux données d’apprentissage.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Build the steps
steps = [("____", ____()),
         ("____", ____())]
pipeline = Pipeline(steps)

# Create the parameter space
parameters = {"____": np.____(____, ____, 20)}
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=21)

# Instantiate the grid search object
cv = ____(____, param_grid=____)

# Fit to the training data
cv.____(____, ____)
print(cv.best_score_, "\n", cv.best_params_)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez les problèmes de classification et apprendrez à les résoudre à l’aide de techniques d’apprentissage supervisé. Vous apprendrez à diviser les données en ensembles d’apprentissage et de test, à adapter un modèle, à faire des prédictions et à évaluer la précision. Vous découvrirez la relation entre la complexité du modèle et la performance, en appliquant ce que vous avez appris à un ensemble de données sur le taux de perte de clients, où vous classerez l’état de désabonnement des clients d’une entreprise de télécommunications.

Exercise 1: Machine learning avec scikit-learn Exercise 2: Classification binaire Exercise 3: Le flux de travail d’apprentissage supervisé Exercise 4: Le défi de la classification Exercise 5: k voisins les plus proches : ajustement Exercise 6: k voisins les plus proches : prédiction Exercise 7: Mesurer la performance du modèle Exercise 8: Séparation apprentissage/test et calcul de la précision Exercise 9: Surajustement et sous-ajustement Exercise 10: Visualiser la complexité du modèle

Dans ce chapitre, vous découvrirez la régression et vous construirez des modèles pour prédire les valeurs des ventes à l’aide d’un ensemble de données sur les dépenses publicitaires. Vous apprendrez les mécanismes de la régression linéaire et les métriques de performance courantes telles que le R-carré et la racine de l’erreur quadratique moyenne. Vous effectuerez une validation croisée à k blocs et appliquerez une régularisation aux modèles de régression afin de réduire le risque de surajustement.

Exercise 1: Introduction à la régression Exercise 2: Création de caractéristiques Exercise 3: Construire un modèle de régression linéaire Exercise 4: Visualisation d’un modèle de régression linéaire Exercise 5: Les bases de la régression linéaire Exercise 6: Ajustement et prédiction de la régression Exercise 7: Performance de la régression Exercise 8: Validation croisée Exercise 9: Validation croisée pour le R-carré Exercise 10: Analyse des métriques de validation croisée Exercise 11: Régression régularisée Exercise 12: Régression régularisée : Crête Exercise 13: Régression Lasso pour l’importance des caractéristiques

Après avoir entraîné des modèles, vous allez maintenant apprendre à les évaluer. Dans ce chapitre, vous découvrirez plusieurs métriques ainsi qu’une technique de visualisation permettant d’analyser les performances des modèles de classification utilisant scikit-learn. Vous apprendrez également à optimiser les modèles de classification et de régression grâce à l’ajustement des hyperparamètres.

Exercise 1: Quelle est la qualité de votre modèle ?Exercise 2: Décider d’une métrique primaire Exercise 3: Évaluation d’un classificateur de prédiction du diabète Exercise 4: Régression logistique et courbe ROC Exercise 5: Construire un modèle de régression logistique Exercise 6: La courbe ROC Exercise 7: Aire sous la courbe ROC (ROC AUC)Exercise 8: Réglage des hyperparamètres Exercise 9: Réglage des hyperparamètres avec GridSearchCV Exercise 10: Réglage des hyperparamètres avec RandomizedSearchCV

Apprenez à imputer les valeurs manquantes, à convertir les données catégorielles en valeurs numériques, à mettre à l’échelle les données, à évaluer simultanément plusieurs modèles d’apprentissage supervisé et à créer des pipelines pour rationaliser votre flux de travail.

Exercise 1: Prétraitement des données Exercise 2: Création de variables nominales Exercise 3: Régression avec caractéristiques catégorielles Exercise 4: Traitement des données manquantes Exercise 5: Suppression des données manquantes Exercise 6: Pipeline pour la prédiction du genre des chansons : I Exercise 7: Pipeline pour la prédiction du genre des chansons : II Exercise 8: Centrage et mise à l’échelle Exercise 9: Centrage et mise à l’échelle pour la régression Exercise 10: Centrage et mise à l’échelle pour la classification

Exercice actuel

Exercise 11: Évaluation de plusieurs modèles Exercise 12: Visualisation de la performance des modèles de régression Exercise 13: Prédiction sur l’ensemble de test Exercise 14: Visualisation des performances des modèles de classification Exercise 15: Pipeline pour prédire la popularité des chansons Exercise 16: Félicitations