Zentrieren und Skalieren für die Regression
Nachdem du die Vorteile der Skalierung deiner Daten gesehen hast, wirst du eine Pipeline verwenden, um die music_df
-Merkmale vorzuverarbeiten und ein Lasso-Regressionsmodell zu erstellen, um die Lautheit eines Liedes vorherzusagen.
X_train
, X_test
, y_train
und y_test
wurden aus dem Datensatz music_df
erstellt, wobei das Ziel "loudness"
ist und die Merkmale alle anderen Spalten des Datensatzes sind. Lasso
und Pipeline
wurden ebenfalls für dich importiert.
Beachte, dass "genre"
in ein binäres Merkmal umgewandelt wurde, bei dem 1
einen Rocksong und 0
andere Genres repräsentiert.
Diese Übung ist Teil des Kurses
Überwachtes Lernen mit scikit-learn
Anleitung zur Übung
- Importiere
StandardScaler
. - Erstelle die Schritte für das Pipeline-Objekt, ein
StandardScaler
-Objekt namens"scaler"
und ein Lasso-Modell namens"lasso"
, wobeialpha
auf0.5
gesetzt ist. - Instanziiere eine Pipeline mit Schritten zur Skalierung und Erstellung eines Lasso-Regressionsmodells.
- Berechne das Bestimmtheitsmaß für die Testdaten.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Import StandardScaler
____
# Create pipeline steps
steps = [("____", ____()),
("____", ____(alpha=____))]
# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)
# Calculate and print R-squared
print(____.____(____, ____))