Train/test-split + nauwkeurigheid berekenen

Tijd om te oefenen met het splitsen van je gegevens in train- en testsets met de churn_df-gegevensset!

Er zijn NumPy-arrays voor je aangemaakt met de features als X en de doelvariabele als y.

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

Oefeninstructies

Importeer train_test_split uit sklearn.model_selection.
Split X en y in train- en testsets, stel test_size in op 20%, random_state op 42, en zorg dat de verhoudingen van de doellabels overeenkomen met die van de oorspronkelijke gegevensset.
Fit het knn-model op de trainingsgegevens.
Bereken en print de nauwkeurigheid van het model op de testgegevens.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the module
from ____ import ____

X = churn_df.drop("churn", axis=1).values
y = churn_df["churn"].values

# Split into training and test sets
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=____, stratify=____)
knn = KNeighborsClassifier(n_neighbors=5)

# Fit the classifier to the training data
____

# Print the accuracy
print(knn.score(____, ____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Supervised Learning met scikit-learn

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

In dit hoofdstuk maak je kennis met classificatieproblemen en leer je hoe je die oplost met supervised learning-technieken. Je leert data opsplitsen in trainings- en testsets, een model fitten, voorspellingen doen en de nauwkeurigheid evalueren. Je ontdekt de relatie tussen modelcomplexiteit en prestaties, en past dit toe op een churn-gegevensset, waarin je de churnstatus van de klanten van een telecombedrijf classificeert.

Exercise 1: Machine Learning met scikit-learn Exercise 2: Binaire classificatie Exercise 3: De supervised learning-workflow Exercise 4: De classificatie-uitdaging Exercise 5: k-Nearest Neighbors: Fitten Exercise 6: k-Nearest Neighbors: voorspellen Exercise 7: Modelprestaties meten Exercise 8: Train/test-split + nauwkeurigheid berekenen

Huidige oefening

Exercise 9: Overfitting en underfitting Exercise 10: Modelcomplexiteit visualiseren

In dit hoofdstuk maak je kennis met regressie en bouw je modellen om verkoopwaarden te voorspellen met een gegevensset over advertentie-uitgaven. Je leert over de werking van lineaire regressie en gangbare prestatiemaatstaven zoals R-squared en root mean squared error. Je voert k-fold cross-validatie uit en past regularisatie toe op regressiemodellen om het risico op overfitting te verkleinen.

Exercise 1: Introductie tot regressie Exercise 2: Features maken Exercise 3: Een lineair regressiemodel bouwen Exercise 4: Een lineair regressiemodel visualiseren Exercise 5: De basis van lineaire regressie Exercise 6: Fitten en voorspellen voor regressie Exercise 7: Regressieprestatie Exercise 8: Cross-validatie Exercise 9: Cross-validation voor R-squared Exercise 10: Cross-validation-metrics analyseren Exercise 11: Geregulariseerde regressie Exercise 12: Geregulariseerde regressie: Ridge Exercise 13: Lasso-regressie voor feature-importance

Nu je modellen hebt getraind, leer je hoe je ze evalueert. In dit hoofdstuk maak je kennis met verschillende maatstaven en een visualisatietechniek om de prestaties van classificatiemodellen te analyseren met scikit-learn. Je leert ook hoe je classificatie- en regressiemodellen optimaliseert via hyperparameter tuning.

Exercise 1: Hoe goed is je model?Exercise 2: Kiezen van een primaire metriek Exercise 3: Een classifier voor diabetesvoorspelling beoordelen Exercise 4: Logistische regressie en de ROC-curve Exercise 5: Een logistiek regressiemodel bouwen Exercise 6: De ROC-curve Exercise 7: ROC AUC Exercise 8: Hyperparametertuning Exercise 9: Hyperparameter-tuning met GridSearchCV Exercise 10: Hyperparameter-tuning met RandomizedSearchCV

Leer hoe je ontbrekende waarden imputeert, categorische data omzet naar numerieke waarden, data schaalt, meerdere supervised learning-modellen tegelijk evalueert en pipelines bouwt om je workflow te stroomlijnen!

Exercise 1: Gegevens preprocessen Exercise 2: Dummyvariabelen maken Exercise 3: Regressie met categorische features Exercise 4: Omgaan met missende gegevens Exercise 5: Missende gegevens verwijderen Exercise 6: Pipeline voor het voorspellen van muziekgenre: I Exercise 7: Pipeline voor het voorspellen van muziekgenres: II Exercise 8: Centreren en schalen Exercise 9: Centreren en schalen voor regressie Exercise 10: Centreren en schalen voor classificatie Exercise 11: Meerdere modellen evalueren Exercise 12: Prestatie van regressiemodellen visualiseren Exercise 13: Voorspellen op de testset Exercise 14: Classificatiemodelprestaties visualiseren Exercise 15: Pipeline voor het voorspellen van songpopulariteit Exercise 16: Gefeliciteerd