Zentrierung und Skalierung für die Regression
Im Video hast du die Vorteile der Datenskalierung gesehen. Nun nutzt du eine Pipeline, um die music_df
-Merkmale vorzuverarbeiten und ein Modell für die Lasso-Regression zu erstellen, mit dem du die Lautheit von Songs vorhersagen kannst.
X_train
, X_test
, y_train
und y_test
wurden aus dem Datensatz music_df
erstellt, wobei "loudness"
die Zielvariable ist und die Merkmale alle anderen Spalten des Datensatzes sind. Lasso
und Pipeline
wurden ebenfalls schon importiert.
Beachte, dass "genre"
in ein binäres Merkmal umgewandelt wurde. Eine 1
steht für einen Rocksong und eine 0
steht für alle anderen Genres.
Diese Übung ist Teil des Kurses
Überwachtes Lernen mit scikit-learn
Anleitung zur Übung
- Importiere
StandardScaler
. - Erstelle die Schritte für das Pipeline-Objekt, ein
StandardScaler
-Objekt namens"scaler"
und ein Lasso-Modell namens"lasso"
mitalpha
gleich0.5
. - Instanziiere eine Pipeline mit Schritten zur Skalierung und zum Erstellen eines Modells für die Lasso-Regression.
- Berechne das Bestimmtheitsmaß für die Testdaten.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import StandardScaler
____
# Create pipeline steps
steps = [("____", ____()),
("____", ____(alpha=____))]
# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)
# Calculate and print R-squared
print(____.____(____, ____))