Pipeline zur Vorhersage der Songpopularität
In der letzten Übung erstellst du eine Pipeline zum Imputieren fehlender Werte, zur Skalierung von Merkmalen und zur Abstimmung der Hyperparameter eines logistischen Regressionsmodells. Das Ziel ist es, die besten Parameter und die höchste Genauigkeit bei der Vorhersage von Songgenres zu finden!
Alle Modelle und Objekte, die für den Aufbau der Pipeline benötigt werden, sind bereits für dich vorgeladen.
Diese Übung ist Teil des Kurses
Überwachtes Lernen mit scikit-learn
Anleitung zur Übung
- Erstelle die Schritte für die Pipeline, indem du einen einfachen Imputer, einen Standardskalierer und ein logistisches Regressionsmodell aufrufst.
- Erstelle ein Pipeline-Objekt und übergebe die Variable
steps
. - Instanziiere ein GridSearch-Objekt, um eine Kreuzvalidierung mit der Pipeline und den Parametern durchzuführen.
- Drucke die besten Parameter und berechne und drucke die Korrektklassifikationsrate der Testmenge für das GridSearch-Objekt.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Create steps
steps = [("imp_mean", ____()),
("scaler", ____()),
("logreg", ____())]
# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
"logreg__C": np.linspace(0.001, 1.0, 10)}
# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)
# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))