Twee steekproeven

Na het bouwen van meerdere classificatiemodellen op basis van de tic_tac_toe-gegevensset merk je dat sommige modellen minder goed generaliseren dan andere. Je hebt trainings- en test-splits gemaakt zoals je hebt geleerd, dus je vraagt je af waarom je validatieproces niet werkt.

Na een andere train-test-split te proberen, zag je verschillende accuracies voor je Machine Learning-model. Voordat je je te veel ergert aan de wisselende resultaten, besluit je te onderzoeken wat er nog meer aan de hand kan zijn.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create two different samples of 200 observations 
sample1 = tic_tac_toe.____(____, random_state=1111)
sample2 = tic_tac_toe.____(____, random_state=1171)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Voordat we modellen kunnen valideren, moeten we begrijpen hoe we ze maken en ermee werken. In dit hoofdstuk maak je kennis met het draaien van regressie- en classificatiemodellen in scikit-learn. We gebruiken deze basis voor modelbouw in de rest van de hoofdstukken.

Exercise 1: Introductie tot modelvalidatie Exercise 2: Modelleer-stappen Exercise 3: Geziene vs. ongeziene data Exercise 4: Regressiemodellen Exercise 5: Stel parameters in en train een model Exercise 6: Belang van features Exercise 7: Classificatiemodellen Exercise 8: Classificatievoorspellingen Exercise 9: Modelparameters hergebruiken Exercise 10: Random forest-classificatie

Dit hoofdstuk draait om de basis van modelvalidatie. Van het splitsen van data in trainings-, validatie- en testgegevenssets tot het begrijpen van de bias-variance trade-off: we leggen de basis voor de technieken K-Fold en Leave-One-Out-validatie die we in hoofdstuk drie oefenen.

Exercise 1: Train-, test- en validatiegegevenssets maken Exercise 2: Maak één holdoutset Exercise 3: Maak twee holdout-sets Exercise 4: Waarom holdout-sets gebruiken Exercise 5: Nauwkeurigheidsmaten: regressiemodellen Exercise 6: Gemiddelde absolute fout Exercise 7: Mean squared error Exercise 8: Prestaties op gegevenssubsets Exercise 9: Classificatiemetrics Exercise 10: Confusion matrices Exercise 11: Nogmaals confusion matrices Exercise 12: Precision vs. recall Exercise 13: De bias-variance trade-off Exercise 14: Fout door under/overfitting Exercise 15: Heb ik last van underfitting?

Holdout-sets zijn een goed begin voor modelvalidatie. Het gebruik van slechts één train- en testset is echter vaak niet genoeg. Cross-validatie geldt als de gouden standaard voor het valideren van modelprestaties en wordt bijna altijd gebruikt bij het afstellen van modelhyperparameters. Dit hoofdstuk richt zich op het uitvoeren van cross-validatie om modelprestaties te valideren.

Exercise 1: De problemen met holdout-sets Exercise 2: Twee steekproeven

Huidige oefening

Exercise 3: Mogelijke problemen Exercise 4: Cross-validatie Exercise 5: scikit-learn's KFold()Exercise 6: KFold-indices gebruiken Exercise 7: sklearns cross_val_score()Exercise 8: Methode’s van scikit-learn Exercise 9: Implementeer cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: Wanneer gebruik je LOOCV Exercise 12: Leave-one-out-cross-validation

De eerste drie hoofdstukken richtten zich op technieken voor modelvalidatie. In hoofdstuk 4 passen we deze technieken toe—vooral cross-validatie—terwijl we leren over hyperparametertuning. Modelvalidatie maakt tuning immers mogelijk en helpt ons het beste model te kiezen.

Exercise 1: Introductie tot hyperparameter tuning Exercise 2: Hyperparameters aanmaken Exercise 3: Een model draaien met bereiken Exercise 4: RandomizedSearchCV Exercise 5: Voorbereiden op RandomizedSearch Exercise 6: RandomizedSearchCV implementeren Exercise 7: Je definitieve model kiezen Exercise 8: Beste classificatienauwkeurigheid Exercise 9: Het beste precisie-model selecteren Exercise 10: Cursus voltooid!