Voorspellen op de testset

In de vorige oefening leken lineaire regressie en ridge vergelijkbare resultaten op te leveren. Het is prima om een van deze modellen te kiezen; je kunt echter de voorspellende prestaties op de testset controleren om te zien of een van beide het beter doet dan de ander.

Je gebruikt root mean squared error (RMSE) als metriek. De dictionary models, met de namen en instanties van de twee modellen, is alvast voor je ingeladen, samen met de train- en doelarrays X_train_scaled, X_test_scaled, y_train en y_test.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Oefeninstructies

Importeer root_mean_squared_error.
Fit het model op de geschaalde trainingsfeatures en de trainingslabels.
Maak voorspellingen met de geschaalde testfeatures.
Bereken de RMSE door de testsetlabels en de voorspelde labels door te geven.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import root_mean_squared_error
from ____.____ import ____

for name, model in models.items():
  # Fit the model to the training data
  ____
  
  # Make predictions on the test set
  y_pred = ____
  
  # Calculate the test_rmse
  test_rmse = ____(____, ____)
  print("{} Test Set RMSE: {}".format(name, test_rmse))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met classificatieproblemen en leer je hoe je die oplost met supervised learning-technieken. Je leert data opsplitsen in trainings- en testsets, een model fitten, voorspellingen doen en de nauwkeurigheid evalueren. Je ontdekt de relatie tussen modelcomplexiteit en prestaties, en past dit toe op een churn-gegevensset, waarin je de churnstatus van de klanten van een telecombedrijf classificeert.

Exercise 1: Machine Learning met scikit-learn Exercise 2: Binaire classificatie Exercise 3: De supervised learning-workflow Exercise 4: De classificatie-uitdaging Exercise 5: k-Nearest Neighbors: Fitten Exercise 6: k-Nearest Neighbors: voorspellen Exercise 7: Modelprestaties meten Exercise 8: Train/test-split + nauwkeurigheid berekenen Exercise 9: Overfitting en underfitting Exercise 10: Modelcomplexiteit visualiseren

In dit hoofdstuk maak je kennis met regressie en bouw je modellen om verkoopwaarden te voorspellen met een gegevensset over advertentie-uitgaven. Je leert over de werking van lineaire regressie en gangbare prestatiemaatstaven zoals R-squared en root mean squared error. Je voert k-fold cross-validatie uit en past regularisatie toe op regressiemodellen om het risico op overfitting te verkleinen.

Exercise 1: Introductie tot regressie Exercise 2: Features maken Exercise 3: Een lineair regressiemodel bouwen Exercise 4: Een lineair regressiemodel visualiseren Exercise 5: De basis van lineaire regressie Exercise 6: Fitten en voorspellen voor regressie Exercise 7: Regressieprestatie Exercise 8: Cross-validatie Exercise 9: Cross-validation voor R-squared Exercise 10: Cross-validation-metrics analyseren Exercise 11: Geregulariseerde regressie Exercise 12: Geregulariseerde regressie: Ridge Exercise 13: Lasso-regressie voor feature-importance

Nu je modellen hebt getraind, leer je hoe je ze evalueert. In dit hoofdstuk maak je kennis met verschillende maatstaven en een visualisatietechniek om de prestaties van classificatiemodellen te analyseren met scikit-learn. Je leert ook hoe je classificatie- en regressiemodellen optimaliseert via hyperparameter tuning.

Exercise 1: Hoe goed is je model?Exercise 2: Kiezen van een primaire metriek Exercise 3: Een classifier voor diabetesvoorspelling beoordelen Exercise 4: Logistische regressie en de ROC-curve Exercise 5: Een logistiek regressiemodel bouwen Exercise 6: De ROC-curve Exercise 7: ROC AUC Exercise 8: Hyperparametertuning Exercise 9: Hyperparameter-tuning met GridSearchCV Exercise 10: Hyperparameter-tuning met RandomizedSearchCV

Leer hoe je ontbrekende waarden imputeert, categorische data omzet naar numerieke waarden, data schaalt, meerdere supervised learning-modellen tegelijk evalueert en pipelines bouwt om je workflow te stroomlijnen!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset

Huidige oefening

Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit Exercise 16: Gefeliciteerd