Maak twee holdout-sets

Je hebt laatst een eenvoudig random forest-model gebouwd om winstpartijen in boter-kaas-en-eieren te voorspellen voor je manager, en op haar verzoek heb je geen parameterafstemming gedaan. Helaas was de algehele modelnauwkeurigheid te laag voor haar standaarden. Deze keer heeft ze je gevraagd je te richten op de modelprestatie.

Voordat je verschillende modellen en parameterinstellingen gaat testen, moet je de data splitsen in trainings-, validatie- en testgegevenssets. Denk eraan dat, nadat je de data hebt gesplitst in trainings- en testgegevenssets, de validatiegegevensset wordt gemaakt door de trainingsgegevensset te splitsen.

De gegevenssets X en y zijn voor je geladen.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Oefeninstructies

Maak tijdelijke gegevenssets en testgegevenssets (X_test, y_test). Gebruik 20% van de totale data voor de testgegevenssets.
Gebruik de tijdelijke gegevenssets (X_temp, y_temp) om trainings- (X_train, y_train) en validatie- (X_val, y_val) gegevenssets te maken.
Gebruik 25% van de tijdelijke data voor de validatiegegevenssets.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create temporary training and final testing datasets
X_temp, ____, y_temp, ____  =\
    train_test_split(X, y, ____=____, random_state=1111)

# Create the final training and validation datasets
____, ____, ____, ____ =\
    train_test_split(X_temp, y_temp, ____=____, random_state=1111)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Voordat we modellen kunnen valideren, moeten we begrijpen hoe we ze maken en ermee werken. In dit hoofdstuk maak je kennis met het draaien van regressie- en classificatiemodellen in scikit-learn. We gebruiken deze basis voor modelbouw in de rest van de hoofdstukken.

Exercise 1: Introductie tot modelvalidatie Exercise 2: Modelleer-stappen Exercise 3: Geziene vs. ongeziene data Exercise 4: Regressiemodellen Exercise 5: Stel parameters in en train een model Exercise 6: Belang van features Exercise 7: Classificatiemodellen Exercise 8: Classificatievoorspellingen Exercise 9: Modelparameters hergebruiken Exercise 10: Random forest-classificatie

Dit hoofdstuk draait om de basis van modelvalidatie. Van het splitsen van data in trainings-, validatie- en testgegevenssets tot het begrijpen van de bias-variance trade-off: we leggen de basis voor de technieken K-Fold en Leave-One-Out-validatie die we in hoofdstuk drie oefenen.

Exercise 1: Train-, test- en validatiegegevenssets maken Exercise 2: Maak één holdoutset Exercise 3: Maak twee holdout-sets

Huidige oefening

Exercise 4: Waarom holdout-sets gebruiken Exercise 5: Nauwkeurigheidsmaten: regressiemodellen Exercise 6: Gemiddelde absolute fout Exercise 7: Mean squared error Exercise 8: Prestaties op gegevenssubsets Exercise 9: Classificatiemetrics Exercise 10: Confusion matrices Exercise 11: Nogmaals confusion matrices Exercise 12: Precision vs. recall Exercise 13: De bias-variance trade-off Exercise 14: Fout door under/overfitting Exercise 15: Heb ik last van underfitting?

Holdout-sets zijn een goed begin voor modelvalidatie. Het gebruik van slechts één train- en testset is echter vaak niet genoeg. Cross-validatie geldt als de gouden standaard voor het valideren van modelprestaties en wordt bijna altijd gebruikt bij het afstellen van modelhyperparameters. Dit hoofdstuk richt zich op het uitvoeren van cross-validatie om modelprestaties te valideren.

Exercise 1: De problemen met holdout-sets Exercise 2: Twee steekproeven Exercise 3: Mogelijke problemen Exercise 4: Cross-validatie Exercise 5: scikit-learn's KFold()Exercise 6: KFold-indices gebruiken Exercise 7: sklearns cross_val_score()Exercise 8: Methode’s van scikit-learn Exercise 9: Implementeer cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: Wanneer gebruik je LOOCV Exercise 12: Leave-one-out-cross-validation

De eerste drie hoofdstukken richtten zich op technieken voor modelvalidatie. In hoofdstuk 4 passen we deze technieken toe—vooral cross-validatie—terwijl we leren over hyperparametertuning. Modelvalidatie maakt tuning immers mogelijk en helpt ons het beste model te kiezen.

Exercise 1: Introductie tot hyperparameter tuning Exercise 2: Hyperparameters aanmaken Exercise 3: Een model draaien met bereiken Exercise 4: RandomizedSearchCV Exercise 5: Voorbereiden op RandomizedSearch Exercise 6: RandomizedSearchCV implementeren Exercise 7: Je definitieve model kiezen Exercise 8: Beste classificatienauwkeurigheid Exercise 9: Het beste precisie-model selecteren Exercise 10: Cursus voltooid!