Centreren en schalen voor regressie
Nu je de voordelen van schalen hebt gezien, ga je een pipeline gebruiken om de features van music_df te preprocessen en een lasso-regressiemodel te bouwen om de luidheid van een nummer te voorspellen.
X_train, X_test, y_train en y_test zijn aangemaakt uit de music_df-gegevensset, waarbij de target "loudness" is en de features alle andere kolommen in de gegevensset zijn. Lasso en Pipeline zijn ook al voor je geïmporteerd.
Let op: "genre" is omgezet naar een binaire feature, waarbij 1 een rocknummer aangeeft en 0 andere genres vertegenwoordigt.
Deze oefening maakt deel uit van de cursus
Supervised Learning met scikit-learn
Oefeninstructies
- Importeer
StandardScaler. - Maak de stappen voor het pipeline-object: een
StandardScaler-object met de naam"scaler", en een lasso-model met de naam"lasso"metalphaingesteld op0.5. - Maak een pipeline aan met stappen om te schalen en een lasso-regressiemodel te bouwen.
- Bereken de R-squared-waarde op de testgegevens.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import StandardScaler
____
# Create pipeline steps
steps = [("____", ____()),
("____", ____(alpha=____))]
# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)
# Calculate and print R-squared
print(____.____(____, ____))