Maak één holdoutset

Je leidinggevende heeft je gevraagd om een eenvoudig random forest-model te maken op de tic_tac_toe-gegevensset. Ze wil niet dat je veel tijd besteedt aan het kiezen van parameters; ze wil juist weten hoe goed het model zal presteren op toekomstige data. Voor toekomstige Tic-Tac-Toe-spellen is het handig om te weten of je model kan voorspellen welke speler zal winnen.

De gegevensset tic_tac_toe is voor je geladen.

Let op: in Python geeft =\ aan dat de code te lang was voor één regel en daarom over twee regels is verdeeld.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Oefeninstructies

Maak de X-gegevensset door dummyvariabelen te maken voor alle categorische kolommen.
Splits X en y in train (X_train, y_train) en test (X_test, y_test) gegevenssets.
Splits de gegevenssets waarbij je 10% gebruikt voor testen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create dummy variables using pandas
X = ____.____(tic_tac_toe.iloc[:,0:9])
y = tic_tac_toe.iloc[:, 9]

# Create training and testing datasets. Use 10% for the test set
____, ____, ____, ____  = ____(X, y, ____=____, random_state=1111)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Voordat we modellen kunnen valideren, moeten we begrijpen hoe we ze maken en ermee werken. In dit hoofdstuk maak je kennis met het draaien van regressie- en classificatiemodellen in scikit-learn. We gebruiken deze basis voor modelbouw in de rest van de hoofdstukken.

Exercise 1: Introductie tot modelvalidatie Exercise 2: Modelleer-stappen Exercise 3: Geziene vs. ongeziene data Exercise 4: Regressiemodellen Exercise 5: Stel parameters in en train een model Exercise 6: Belang van features Exercise 7: Classificatiemodellen Exercise 8: Classificatievoorspellingen Exercise 9: Modelparameters hergebruiken Exercise 10: Random forest-classificatie

Dit hoofdstuk draait om de basis van modelvalidatie. Van het splitsen van data in trainings-, validatie- en testgegevenssets tot het begrijpen van de bias-variance trade-off: we leggen de basis voor de technieken K-Fold en Leave-One-Out-validatie die we in hoofdstuk drie oefenen.

Exercise 1: Train-, test- en validatiegegevenssets maken Exercise 2: Maak één holdoutset

Huidige oefening

Exercise 3: Maak twee holdout-sets Exercise 4: Waarom holdout-sets gebruiken Exercise 5: Nauwkeurigheidsmaten: regressiemodellen Exercise 6: Gemiddelde absolute fout Exercise 7: Mean squared error Exercise 8: Prestaties op gegevenssubsets Exercise 9: Classificatiemetrics Exercise 10: Confusion matrices Exercise 11: Nogmaals confusion matrices Exercise 12: Precision vs. recall Exercise 13: De bias-variance trade-off Exercise 14: Fout door under/overfitting Exercise 15: Heb ik last van underfitting?

Holdout-sets zijn een goed begin voor modelvalidatie. Het gebruik van slechts één train- en testset is echter vaak niet genoeg. Cross-validatie geldt als de gouden standaard voor het valideren van modelprestaties en wordt bijna altijd gebruikt bij het afstellen van modelhyperparameters. Dit hoofdstuk richt zich op het uitvoeren van cross-validatie om modelprestaties te valideren.

Exercise 1: De problemen met holdout-sets Exercise 2: Twee steekproeven Exercise 3: Mogelijke problemen Exercise 4: Cross-validatie Exercise 5: scikit-learn's KFold()Exercise 6: KFold-indices gebruiken Exercise 7: sklearns cross_val_score()Exercise 8: Methode’s van scikit-learn Exercise 9: Implementeer cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: Wanneer gebruik je LOOCV Exercise 12: Leave-one-out-cross-validation

De eerste drie hoofdstukken richtten zich op technieken voor modelvalidatie. In hoofdstuk 4 passen we deze technieken toe—vooral cross-validatie—terwijl we leren over hyperparametertuning. Modelvalidatie maakt tuning immers mogelijk en helpt ons het beste model te kiezen.

Exercise 1: Introductie tot hyperparameter tuning Exercise 2: Hyperparameters aanmaken Exercise 3: Een model draaien met bereiken Exercise 4: RandomizedSearchCV Exercise 5: Voorbereiden op RandomizedSearch Exercise 6: RandomizedSearchCV implementeren Exercise 7: Je definitieve model kiezen Exercise 8: Beste classificatienauwkeurigheid Exercise 9: Het beste precisie-model selecteren Exercise 10: Cursus voltooid!