Pipeline voor het voorspellen van songpopulariteit

In de laatste oefening bouw je een pipeline om ontbrekende waarden in te vullen, features te schalen en hyperparametertuning uit te voeren voor een logistische regressie. Het doel is om de beste parameters en nauwkeurigheid te vinden bij het voorspellen van het genre van een song!

Alle modellen en objecten die je nodig hebt om de pipeline te bouwen, zijn alvast voor je ingeladen.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Oefeninstructies

Maak de stappen voor de pipeline door een simple imputer, een standard scaler en een logistic regression-model aan te roepen.
Maak een pipeline-object en geef de variabele steps door.
Instantieer een gridsearch-object om cross-validatie uit te voeren met de pipeline en de parameters.
Print de beste parameters en bereken en print de nauwkeurigheidsscore op de testset voor het gridsearch-object.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create steps
steps = [("imp_mean", ____()), 
         ("scaler", ____()), 
         ("logreg", ____())]

# Set up pipeline
pipeline = ____(____)
params = {"logreg__solver": ["newton-cg", "saga", "lbfgs"],
         "logreg__C": np.linspace(0.001, 1.0, 10)}

# Create the GridSearchCV object
tuning = ____(____, param_grid=____)
tuning.fit(X_train, y_train)
y_pred = tuning.predict(X_test)

# Compute and print performance
print("Tuned Logistic Regression Parameters: {}, Accuracy: {}".format(____.____, ____.____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met classificatieproblemen en leer je hoe je die oplost met supervised learning-technieken. Je leert data opsplitsen in trainings- en testsets, een model fitten, voorspellingen doen en de nauwkeurigheid evalueren. Je ontdekt de relatie tussen modelcomplexiteit en prestaties, en past dit toe op een churn-gegevensset, waarin je de churnstatus van de klanten van een telecombedrijf classificeert.

Exercise 1: Machine Learning met scikit-learn Exercise 2: Binaire classificatie Exercise 3: De supervised learning-workflow Exercise 4: De classificatie-uitdaging Exercise 5: k-Nearest Neighbors: Fitten Exercise 6: k-Nearest Neighbors: voorspellen Exercise 7: Modelprestaties meten Exercise 8: Train/test-split + nauwkeurigheid berekenen Exercise 9: Overfitting en underfitting Exercise 10: Modelcomplexiteit visualiseren

In dit hoofdstuk maak je kennis met regressie en bouw je modellen om verkoopwaarden te voorspellen met een gegevensset over advertentie-uitgaven. Je leert over de werking van lineaire regressie en gangbare prestatiemaatstaven zoals R-squared en root mean squared error. Je voert k-fold cross-validatie uit en past regularisatie toe op regressiemodellen om het risico op overfitting te verkleinen.

Exercise 1: Introductie tot regressie Exercise 2: Features maken Exercise 3: Een lineair regressiemodel bouwen Exercise 4: Een lineair regressiemodel visualiseren Exercise 5: De basis van lineaire regressie Exercise 6: Fitten en voorspellen voor regressie Exercise 7: Regressieprestatie Exercise 8: Cross-validatie Exercise 9: Cross-validation voor R-squared Exercise 10: Cross-validation-metrics analyseren Exercise 11: Geregulariseerde regressie Exercise 12: Geregulariseerde regressie: Ridge Exercise 13: Lasso-regressie voor feature-importance

Nu je modellen hebt getraind, leer je hoe je ze evalueert. In dit hoofdstuk maak je kennis met verschillende maatstaven en een visualisatietechniek om de prestaties van classificatiemodellen te analyseren met scikit-learn. Je leert ook hoe je classificatie- en regressiemodellen optimaliseert via hyperparameter tuning.

Exercise 1: Hoe goed is je model?Exercise 2: Kiezen van een primaire metriek Exercise 3: Een classifier voor diabetesvoorspelling beoordelen Exercise 4: Logistische regressie en de ROC-curve Exercise 5: Een logistiek regressiemodel bouwen Exercise 6: De ROC-curve Exercise 7: ROC AUC Exercise 8: Hyperparametertuning Exercise 9: Hyperparameter-tuning met GridSearchCV Exercise 10: Hyperparameter-tuning met RandomizedSearchCV

Leer hoe je ontbrekende waarden imputeert, categorische data omzet naar numerieke waarden, data schaalt, meerdere supervised learning-modellen tegelijk evalueert en pipelines bouwt om je workflow te stroomlijnen!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit

Huidige oefening

Exercise 16: Gefeliciteerd