Pipeline zur Vorhersage der Songpopularität

In der letzten Übung erstellst du eine Pipeline zum Imputieren fehlender Werte, zur Skalierung von Merkmalen und zur Abstimmung der Hyperparameter eines logistischen Regressionsmodells. Das Ziel ist es, die besten Parameter und die höchste Genauigkeit bei der Vorhersage von Songgenres zu finden!

Alle Modelle und Objekte, die für den Aufbau der Pipeline benötigt werden, sind bereits für dich vorgeladen.

Diese Übung ist Teil des Kurses

Überwachtes Lernen mit scikit-learn

Kurs anzeigen

Anleitung zur Übung

  • Erstelle die Schritte für die Pipeline, indem du einen einfachen Imputer, einen Standardskalierer und ein logistisches Regressionsmodell aufrufst.
  • Erstelle ein Pipeline-Objekt und übergebe die Variable steps.
  • Instanziiere ein GridSearch-Objekt, um eine Kreuzvalidierung mit der Pipeline und den Parametern durchzuführen.
  • Drucke die besten Parameter und berechne und drucke die Korrektklassifikationsrate der Testmenge für das GridSearch-Objekt.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Create steps
steps = [("imp_mean", ____()), 
         ("scaler", ____()), 
         ("logreg", ____())]

# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
         "logreg__C": np.linspace(0.001, 1.0, 10)}

# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)

# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))