Pipeline voor het voorspellen van muziekgenres: II

Nu je in de vorige oefening de stappen van de pipeline hebt opgezet, ga je deze gebruiken op de gegevensset music_df om het genre van nummers te classificeren. Wat pipelines zo ontzettend handig maakt, is de eenvoudige interface die ze bieden.

X_train, X_test, y_train en y_test zijn alvast voor je ingeladen, en confusion_matrix is geïmporteerd uit sklearn.metrics.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Oefeninstructies

Maak een pipeline met de stappen die je eerder hebt gedefinieerd.
Fit de pipeline op de trainingsdata.
Maak voorspellingen op de testset.
Bereken en print de confusion matrix.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

steps = [("imputer", imp_mean),
        ("knn", knn)]

# Create the pipeline
pipeline = ____(____)

# Fit the pipeline to the training data
____

# Make predictions on the test set
y_pred = ____

# Print the confusion matrix
print(____(____, ____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met classificatieproblemen en leer je hoe je die oplost met supervised learning-technieken. Je leert data opsplitsen in trainings- en testsets, een model fitten, voorspellingen doen en de nauwkeurigheid evalueren. Je ontdekt de relatie tussen modelcomplexiteit en prestaties, en past dit toe op een churn-gegevensset, waarin je de churnstatus van de klanten van een telecombedrijf classificeert.

Exercise 1: Machine Learning met scikit-learn Exercise 2: Binaire classificatie Exercise 3: De supervised learning-workflow Exercise 4: De classificatie-uitdaging Exercise 5: k-Nearest Neighbors: Fitten Exercise 6: k-Nearest Neighbors: voorspellen Exercise 7: Modelprestaties meten Exercise 8: Train/test-split + nauwkeurigheid berekenen Exercise 9: Overfitting en underfitting Exercise 10: Modelcomplexiteit visualiseren

In dit hoofdstuk maak je kennis met regressie en bouw je modellen om verkoopwaarden te voorspellen met een gegevensset over advertentie-uitgaven. Je leert over de werking van lineaire regressie en gangbare prestatiemaatstaven zoals R-squared en root mean squared error. Je voert k-fold cross-validatie uit en past regularisatie toe op regressiemodellen om het risico op overfitting te verkleinen.

Exercise 1: Introductie tot regressie Exercise 2: Features maken Exercise 3: Een lineair regressiemodel bouwen Exercise 4: Een lineair regressiemodel visualiseren Exercise 5: De basis van lineaire regressie Exercise 6: Fitten en voorspellen voor regressie Exercise 7: Regressieprestatie Exercise 8: Cross-validatie Exercise 9: Cross-validation voor R-squared Exercise 10: Cross-validation-metrics analyseren Exercise 11: Geregulariseerde regressie Exercise 12: Geregulariseerde regressie: Ridge Exercise 13: Lasso-regressie voor feature-importance

Nu je modellen hebt getraind, leer je hoe je ze evalueert. In dit hoofdstuk maak je kennis met verschillende maatstaven en een visualisatietechniek om de prestaties van classificatiemodellen te analyseren met scikit-learn. Je leert ook hoe je classificatie- en regressiemodellen optimaliseert via hyperparameter tuning.

Exercise 1: Hoe goed is je model?Exercise 2: Kiezen van een primaire metriek Exercise 3: Een classifier voor diabetesvoorspelling beoordelen Exercise 4: Logistische regressie en de ROC-curve Exercise 5: Een logistiek regressiemodel bouwen Exercise 6: De ROC-curve Exercise 7: ROC AUC Exercise 8: Hyperparametertuning Exercise 9: Hyperparameter-tuning met GridSearchCV Exercise 10: Hyperparameter-tuning met RandomizedSearchCV

Leer hoe je ontbrekende waarden imputeert, categorische data omzet naar numerieke waarden, data schaalt, meerdere supervised learning-modellen tegelijk evalueert en pipelines bouwt om je workflow te stroomlijnen!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II

Huidige oefening

Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit Exercise 16: Gefeliciteerd