Pipeline pour prédire la popularité des chansons
Pour le dernier exercice, vous construirez un pipeline pour imputer les valeurs manquantes, mettre à l’échelle les caractéristiques et effectuer l’ajustement des hyperparamètres d’un modèle de régression logistique. L’objectif est de trouver les meilleurs paramètres et la meilleure précision pour prédire le genre d’une chanson !
Tous les modèles et objets nécessaires à la construction du pipeline ont été préchargés pour vous.
Cet exercice fait partie du cours
Apprentissage supervisé avec scikit-learn
Instructions
- Créez les étapes du pipeline en appelant un imputeur simple, un metteur à l’échelle standard et un modèle de régression logistique.
- Créez un objet pipeline et passez la variable
steps
. - Instanciez un objet de recherche de grille pour effectuer une validation croisée à l’aide du pipeline et des paramètres.
- Affichez les meilleurs paramètres et calculez et affichez le score de précision de l’ensemble de test pour l’objet de recherche de grille.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create steps
steps = [("imp_mean", ____()),
("scaler", ____()),
("logreg", ____())]
# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
"logreg__C": np.linspace(0.001, 1.0, 10)}
# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)
# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))