Régression avec caractéristiques catégorielles

Maintenant que vous avez créé music_dummies, contenant des caractéristiques binaires pour le genre de chaque chanson, il est temps de construire un modèle de régression de crête pour prédire la popularité de la chanson.

music_dummies a été préchargé pour vous, ainsi que Ridge, cross_val_score, numpy en tant que np, et un objet KFold stocké en tant que kf.

Le modèle sera évalué en calculant le RMSE moyen, mais vous devrez d’abord convertir les scores de chaque bloc en valeurs positives et prendre leur racine carrée. Cette métrique indique l’erreur moyenne des prédictions de notre modèle et peut donc être comparée à l’écart-type de la valeur cible "popularity".

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

Instructions de l’exercice

Créez X, qui contient toutes les caractéristiques de music_dummies, et y, qui se compose de la colonne "popularity", respectivement.
Instanciez un modèle de régression de crête, en fixant alpha à 0,2.
Effectuez une validation croisée sur X et y à l’aide du modèle de crête, en définissant cv sur kf et en utilisant l’erreur quadratique moyenne négative comme métrique de score.
Affichez les valeurs du RMSE en convertissant les scores négatifs en valeurs positives et en prenant leur racine carrée.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Apprentissage supervisé avec scikit-learn</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez les problèmes de classification et apprendrez à les résoudre à l’aide de techniques d’apprentissage supervisé. Vous apprendrez à diviser les données en ensembles d’apprentissage et de test, à adapter un modèle, à faire des prédictions et à évaluer la précision. Vous découvrirez la relation entre la complexité du modèle et la performance, en appliquant ce que vous avez appris à un ensemble de données sur le taux de perte de clients, où vous classerez l’état de désabonnement des clients d’une entreprise de télécommunications.

Exercise 1: Machine learning avec scikit-learn Exercise 2: Classification binaire Exercise 3: Le flux de travail d’apprentissage supervisé Exercise 4: Le défi de la classification Exercise 5: k voisins les plus proches : ajustement Exercise 6: k voisins les plus proches : prédiction Exercise 7: Mesurer la performance du modèle Exercise 8: Séparation apprentissage/test et calcul de la précision Exercise 9: Surajustement et sous-ajustement Exercise 10: Visualiser la complexité du modèle

Dans ce chapitre, vous découvrirez la régression et vous construirez des modèles pour prédire les valeurs des ventes à l’aide d’un ensemble de données sur les dépenses publicitaires. Vous apprendrez les mécanismes de la régression linéaire et les métriques de performance courantes telles que le R-carré et la racine de l’erreur quadratique moyenne. Vous effectuerez une validation croisée à k blocs et appliquerez une régularisation aux modèles de régression afin de réduire le risque de surajustement.

Exercise 1: Introduction à la régression Exercise 2: Création de caractéristiques Exercise 3: Construire un modèle de régression linéaire Exercise 4: Visualisation d’un modèle de régression linéaire Exercise 5: Les bases de la régression linéaire Exercise 6: Ajustement et prédiction de la régression Exercise 7: Performance de la régression Exercise 8: Validation croisée Exercise 9: Validation croisée pour le R-carré Exercise 10: Analyse des métriques de validation croisée Exercise 11: Régression régularisée Exercise 12: Régression régularisée : Crête Exercise 13: Régression Lasso pour l’importance des caractéristiques

Après avoir entraîné des modèles, vous allez maintenant apprendre à les évaluer. Dans ce chapitre, vous découvrirez plusieurs métriques ainsi qu’une technique de visualisation permettant d’analyser les performances des modèles de classification utilisant scikit-learn. Vous apprendrez également à optimiser les modèles de classification et de régression grâce à l’ajustement des hyperparamètres.

Exercise 1: Quelle est la qualité de votre modèle ?Exercise 2: Décider d’une métrique primaire Exercise 3: Évaluation d’un classificateur de prédiction du diabète Exercise 4: Régression logistique et courbe ROC Exercise 5: Construire un modèle de régression logistique Exercise 6: La courbe ROC Exercise 7: Aire sous la courbe ROC (ROC AUC)Exercise 8: Réglage des hyperparamètres Exercise 9: Réglage des hyperparamètres avec GridSearchCV Exercise 10: Réglage des hyperparamètres avec RandomizedSearchCV

Apprenez à imputer les valeurs manquantes, à convertir les données catégorielles en valeurs numériques, à mettre à l’échelle les données, à évaluer simultanément plusieurs modèles d’apprentissage supervisé et à créer des pipelines pour rationaliser votre flux de travail.

Exercise 1: Prétraitement des données Exercise 2: Création de variables nominales Exercise 3: Régression avec caractéristiques catégorielles

Exercice actuel

Exercise 4: Traitement des données manquantes Exercise 5: Suppression des données manquantes Exercise 6: Pipeline pour la prédiction du genre des chansons : I Exercise 7: Pipeline pour la prédiction du genre des chansons : II Exercise 8: Centrage et mise à l’échelle Exercise 9: Centrage et mise à l’échelle pour la régression Exercise 10: Centrage et mise à l’échelle pour la classification Exercise 11: Évaluation de plusieurs modèles Exercise 12: Visualisation de la performance des modèles de régression Exercise 13: Prédiction sur l’ensemble de test Exercise 14: Visualisation des performances des modèles de classification Exercise 15: Pipeline pour prédire la popularité des chansons Exercise 16: Félicitations