Aan de slagGa gratis aan de slag

Centreren en schalen voor regressie

Nu je de voordelen van schalen hebt gezien, ga je een pipeline gebruiken om de features van music_df te preprocessen en een lasso-regressiemodel te bouwen om de luidheid van een nummer te voorspellen.

X_train, X_test, y_train en y_test zijn aangemaakt uit de music_df-gegevensset, waarbij de target "loudness" is en de features alle andere kolommen in de gegevensset zijn. Lasso en Pipeline zijn ook al voor je geïmporteerd.

Let op: "genre" is omgezet naar een binaire feature, waarbij 1 een rocknummer aangeeft en 0 andere genres vertegenwoordigt.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Cursus bekijken

Oefeninstructies

  • Importeer StandardScaler.
  • Maak de stappen voor het pipeline-object: een StandardScaler-object met de naam "scaler", en een lasso-model met de naam "lasso" met alpha ingesteld op 0.5.
  • Maak een pipeline aan met stappen om te schalen en een lasso-regressiemodel te bouwen.
  • Bereken de R-squared-waarde op de testgegevens.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))
Code bewerken en uitvoeren