Centreren en schalen voor regressie

Nu je de voordelen van schalen hebt gezien, ga je een pipeline gebruiken om de features van music_df te preprocessen en een lasso-regressiemodel te bouwen om de luidheid van een nummer te voorspellen.

X_train, X_test, y_train en y_test zijn aangemaakt uit de music_df-gegevensset, waarbij de target "loudness" is en de features alle andere kolommen in de gegevensset zijn. Lasso en Pipeline zijn ook al voor je geïmporteerd.

Let op: "genre" is omgezet naar een binaire feature, waarbij 1 een rocknummer aangeeft en 0 andere genres vertegenwoordigt.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Oefeninstructies

Importeer StandardScaler.
Maak de stappen voor het pipeline-object: een StandardScaler-object met de naam "scaler", en een lasso-model met de naam "lasso" met alpha ingesteld op 0.5.
Maak een pipeline aan met stappen om te schalen en een lasso-regressiemodel te bouwen.
Bereken de R-squared-waarde op de testgegevens.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import StandardScaler
____

# Create pipeline steps
steps = [("____", ____()),
         ("____", ____(alpha=____))]

# Instantiate the pipeline
pipeline = ____(____)
pipeline.fit(X_train, y_train)

# Calculate and print R-squared
print(____.____(____, ____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met classificatieproblemen en leer je hoe je die oplost met supervised learning-technieken. Je leert data opsplitsen in trainings- en testsets, een model fitten, voorspellingen doen en de nauwkeurigheid evalueren. Je ontdekt de relatie tussen modelcomplexiteit en prestaties, en past dit toe op een churn-gegevensset, waarin je de churnstatus van de klanten van een telecombedrijf classificeert.

Exercise 1: Machine Learning met scikit-learn Exercise 2: Binaire classificatie Exercise 3: De supervised learning-workflow Exercise 4: De classificatie-uitdaging Exercise 5: k-Nearest Neighbors: Fitten Exercise 6: k-Nearest Neighbors: voorspellen Exercise 7: Modelprestaties meten Exercise 8: Train/test-split + nauwkeurigheid berekenen Exercise 9: Overfitting en underfitting Exercise 10: Modelcomplexiteit visualiseren

In dit hoofdstuk maak je kennis met regressie en bouw je modellen om verkoopwaarden te voorspellen met een gegevensset over advertentie-uitgaven. Je leert over de werking van lineaire regressie en gangbare prestatiemaatstaven zoals R-squared en root mean squared error. Je voert k-fold cross-validatie uit en past regularisatie toe op regressiemodellen om het risico op overfitting te verkleinen.

Exercise 1: Introductie tot regressie Exercise 2: Features maken Exercise 3: Een lineair regressiemodel bouwen Exercise 4: Een lineair regressiemodel visualiseren Exercise 5: De basis van lineaire regressie Exercise 6: Fitten en voorspellen voor regressie Exercise 7: Regressieprestatie Exercise 8: Cross-validatie Exercise 9: Cross-validation voor R-squared Exercise 10: Cross-validation-metrics analyseren Exercise 11: Geregulariseerde regressie Exercise 12: Geregulariseerde regressie: Ridge Exercise 13: Lasso-regressie voor feature-importance

Nu je modellen hebt getraind, leer je hoe je ze evalueert. In dit hoofdstuk maak je kennis met verschillende maatstaven en een visualisatietechniek om de prestaties van classificatiemodellen te analyseren met scikit-learn. Je leert ook hoe je classificatie- en regressiemodellen optimaliseert via hyperparameter tuning.

Exercise 1: Hoe goed is je model?Exercise 2: Kiezen van een primaire metriek Exercise 3: Een classifier voor diabetesvoorspelling beoordelen Exercise 4: Logistische regressie en de ROC-curve Exercise 5: Een logistiek regressiemodel bouwen Exercise 6: De ROC-curve Exercise 7: ROC AUC Exercise 8: Hyperparametertuning Exercise 9: Hyperparameter-tuning met GridSearchCV Exercise 10: Hyperparameter-tuning met RandomizedSearchCV

Leer hoe je ontbrekende waarden imputeert, categorische data omzet naar numerieke waarden, data schaalt, meerdere supervised learning-modellen tegelijk evalueert en pipelines bouwt om je workflow te stroomlijnen!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie

Huidige oefening

Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit Exercise 16: Gefeliciteerd