Ajustement et prédiction de la régression

Maintenant que vous avez vu comment fonctionne la régression linéaire, votre tâche consiste à créer un modèle de régression linéaire multiple en utilisant toutes les caractéristiques de l’ensemble de données sales_df, qui a été préchargé pour vous. Pour rappel, voici les deux premières lignes :

     tv        radio      social_media    sales

1    13000.0   9237.76    2409.57         46677.90
2    41000.0   15886.45   2913.41         150177.83

Vous utiliserez ensuite ce modèle pour prédire les ventes en fonction des valeurs des caractéristiques de test.

LinearRegression et train_test_split ont été préchargés pour vous à partir de leurs modules respectifs.

Cet exercice fait partie du cours

Apprentissage supervisé avec scikit-learn

Afficher le cours

Instructions

Créez X, un tableau contenant les valeurs de toutes les caractéristiques de sales_df, et y, contenant toutes les valeurs de la colonne "sales".
Instanciez un modèle de régression linéaire.
Ajustez le modèle aux données d’apprentissage.
Créez y_pred, en faisant des prédictions pour sales à l’aide des caractéristiques de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create X and y arrays
X = sales_df.____("____", axis=____).____
y = sales_df["____"].____

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Instantiate the model
reg = ____

# Fit the model to the data
____

# Make predictions
y_pred = reg.____(____)
print("Predictions: {}, Actual Values: {}".format(y_pred[:2], y_test[:2]))

Modifier et exécuter le code

Cet exercice fait partie du cours

Apprentissage supervisé avec scikit-learn

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous découvrirez les problèmes de classification et apprendrez à les résoudre à l’aide de techniques d’apprentissage supervisé. Vous apprendrez à diviser les données en ensembles d’apprentissage et de test, à adapter un modèle, à faire des prédictions et à évaluer la précision. Vous découvrirez la relation entre la complexité du modèle et la performance, en appliquant ce que vous avez appris à un ensemble de données sur le taux de perte de clients, où vous classerez l’état de désabonnement des clients d’une entreprise de télécommunications.

Exercise 1: Machine learning avec scikit-learn Exercise 2: Classification binaire Exercise 3: Le flux de travail d’apprentissage supervisé Exercise 4: Le défi de la classification Exercise 5: k voisins les plus proches : ajustement Exercise 6: k voisins les plus proches : prédiction Exercise 7: Mesurer la performance du modèle Exercise 8: Séparation apprentissage/test et calcul de la précision Exercise 9: Surajustement et sous-ajustement Exercise 10: Visualiser la complexité du modèle

Dans ce chapitre, vous découvrirez la régression et vous construirez des modèles pour prédire les valeurs des ventes à l’aide d’un ensemble de données sur les dépenses publicitaires. Vous apprendrez les mécanismes de la régression linéaire et les métriques de performance courantes telles que le R-carré et la racine de l’erreur quadratique moyenne. Vous effectuerez une validation croisée à k blocs et appliquerez une régularisation aux modèles de régression afin de réduire le risque de surajustement.

Exercise 1: Introduction à la régression Exercise 2: Création de caractéristiques Exercise 3: Construire un modèle de régression linéaire Exercise 4: Visualisation d’un modèle de régression linéaire Exercise 5: Les bases de la régression linéaire Exercise 6: Ajustement et prédiction de la régression

Exercice en cours

Exercise 7: Performance de la régression Exercise 8: Validation croisée Exercise 9: Validation croisée pour le R-carré Exercise 10: Analyse des métriques de validation croisée Exercise 11: Régression régularisée Exercise 12: Régression régularisée : Crête Exercise 13: Régression Lasso pour l’importance des caractéristiques

Après avoir entraîné des modèles, vous allez maintenant apprendre à les évaluer. Dans ce chapitre, vous découvrirez plusieurs métriques ainsi qu’une technique de visualisation permettant d’analyser les performances des modèles de classification utilisant scikit-learn. Vous apprendrez également à optimiser les modèles de classification et de régression grâce à l’ajustement des hyperparamètres.

Exercise 1: Quelle est la qualité de votre modèle ?Exercise 2: Décider d’une métrique primaire Exercise 3: Évaluation d’un classificateur de prédiction du diabète Exercise 4: Régression logistique et courbe ROC Exercise 5: Construire un modèle de régression logistique Exercise 6: La courbe ROC Exercise 7: Aire sous la courbe ROC (ROC AUC)Exercise 8: Réglage des hyperparamètres Exercise 9: Réglage des hyperparamètres avec GridSearchCV Exercise 10: Réglage des hyperparamètres avec RandomizedSearchCV

Apprenez à imputer les valeurs manquantes, à convertir les données catégorielles en valeurs numériques, à mettre à l’échelle les données, à évaluer simultanément plusieurs modèles d’apprentissage supervisé et à créer des pipelines pour rationaliser votre flux de travail.

Exercise 1: Prétraitement des données Exercise 2: Création de variables nominales Exercise 3: Régression avec caractéristiques catégorielles Exercise 4: Traitement des données manquantes Exercise 5: Suppression des données manquantes Exercise 6: Pipeline pour la prédiction du genre des chansons : I Exercise 7: Pipeline pour la prédiction du genre des chansons : II Exercise 8: Centrage et mise à l’échelle Exercise 9: Centrage et mise à l’échelle pour la régression Exercise 10: Centrage et mise à l’échelle pour la classification Exercise 11: Évaluation de plusieurs modèles Exercise 12: Visualisation de la performance des modèles de régression Exercise 13: Prédiction sur l’ensemble de test Exercise 14: Visualisation des performances des modèles de classification Exercise 15: Pipeline pour prédire la popularité des chansons Exercise 16: Félicitations