Zentrieren und Skalieren für die Regression

Nachdem du die Vorteile der Skalierung deiner Daten gesehen hast, wirst du eine Pipeline verwenden, um die music_df-Merkmale vorzuverarbeiten und ein Lasso-Regressionsmodell zu erstellen, um die Lautheit eines Liedes vorherzusagen.

X_train, X_test, y_train und y_test wurden aus dem Datensatz music_df erstellt, wobei das Ziel "loudness" ist und die Merkmale alle anderen Spalten des Datensatzes sind. Lasso und Pipeline wurden ebenfalls für dich importiert.

Beachte, dass "genre" in ein binäres Merkmal umgewandelt wurde, bei dem 1 einen Rocksong und 0 andere Genres repräsentiert.

Diese Übung ist Teil des Kurses

Überwachtes Lernen mit scikit-learn

Kurs anzeigen

Anleitung zur Übung

  • Importiere StandardScaler.
  • Erstelle die Schritte für das Pipeline-Objekt, ein StandardScaler-Objekt namens "scaler" und ein Lasso-Modell namens "lasso", wobei alpha auf 0.5 gesetzt ist.
  • Instanziiere eine Pipeline mit Schritten zur Skalierung und Erstellung eines Lasso-Regressionsmodells.
  • Berechne das Bestimmtheitsmaß für die Testdaten.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))