LoslegenKostenlos loslegen

Zentrierung und Skalierung für die Regression

Im Video hast du die Vorteile der Datenskalierung gesehen. Nun nutzt du eine Pipeline, um die music_df-Merkmale vorzuverarbeiten und ein Modell für die Lasso-Regression zu erstellen, mit dem du die Lautheit von Songs vorhersagen kannst.

X_train, X_test, y_train und y_test wurden aus dem Datensatz music_df erstellt, wobei "loudness" die Zielvariable ist und die Merkmale alle anderen Spalten des Datensatzes sind. Lasso und Pipeline wurden ebenfalls schon importiert.

Beachte, dass "genre" in ein binäres Merkmal umgewandelt wurde. Eine 1 steht für einen Rocksong und eine 0 steht für alle anderen Genres.

Diese Übung ist Teil des Kurses

Überwachtes Lernen mit scikit-learn

Kurs anzeigen

Anleitung zur Übung

  • Importiere StandardScaler.
  • Erstelle die Schritte für das Pipeline-Objekt, ein StandardScaler-Objekt namens "scaler" und ein Lasso-Modell namens "lasso" mit alpha gleich 0.5.
  • Instanziiere eine Pipeline mit Schritten zur Skalierung und zum Erstellen eines Modells für die Lasso-Regression.
  • Berechne das Bestimmtheitsmaß für die Testdaten.

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))
Code bearbeiten und ausführen