KFold-indices gebruiken

Je hebt splits al gemaakt, met indices voor de candy-data-gegevensset om 5-voudige cross-validatie uit te voeren. Om een beter beeld te krijgen van hoe goed het random forest-model van een collega zal presteren op nieuwe data, wil je dit model draaien op de vijf verschillende training- en validatie-indices die je zojuist hebt gemaakt.

In deze oefening gebruik je deze indices om de nauwkeurigheid van dit model te controleren met de vijf verschillende splits. Er is een for-lus voorzien om je hierbij te helpen.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Oefeninstructies

Gebruik train_index en val_index om de juiste indices van X en y aan te roepen bij het maken van training- en validatiegegevens.
Fit rfc met de trainingsgegevensset
Gebruik rfc om voorspellingen te maken voor de validatiegegevensset en print de validatienauwkeurigheid

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

rfc = RandomForestRegressor(n_estimators=25, random_state=1111)

# Access the training and validation indices of splits
for train_index, val_index in splits:
    # Setup the training and validation data
    X_train, y_train = X[____], y[____]
    X_val, y_val = X[____], y[____]
    # Fit the random forest model
    rfc.____(____, ____)
    # Make predictions, and print the accuracy
    predictions = rfc.____(____)
    print("Split accuracy: " + str(mean_squared_error(y_val, predictions)))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Voordat we modellen kunnen valideren, moeten we begrijpen hoe we ze maken en ermee werken. In dit hoofdstuk maak je kennis met het draaien van regressie- en classificatiemodellen in scikit-learn. We gebruiken deze basis voor modelbouw in de rest van de hoofdstukken.

Exercise 1: Introductie tot modelvalidatie Exercise 2: Modelleer-stappen Exercise 3: Geziene vs. ongeziene data Exercise 4: Regressiemodellen Exercise 5: Stel parameters in en train een model Exercise 6: Belang van features Exercise 7: Classificatiemodellen Exercise 8: Classificatievoorspellingen Exercise 9: Modelparameters hergebruiken Exercise 10: Random forest-classificatie

Dit hoofdstuk draait om de basis van modelvalidatie. Van het splitsen van data in trainings-, validatie- en testgegevenssets tot het begrijpen van de bias-variance trade-off: we leggen de basis voor de technieken K-Fold en Leave-One-Out-validatie die we in hoofdstuk drie oefenen.

Exercise 1: Train-, test- en validatiegegevenssets maken Exercise 2: Maak één holdoutset Exercise 3: Maak twee holdout-sets Exercise 4: Waarom holdout-sets gebruiken Exercise 5: Nauwkeurigheidsmaten: regressiemodellen Exercise 6: Gemiddelde absolute fout Exercise 7: Mean squared error Exercise 8: Prestaties op gegevenssubsets Exercise 9: Classificatiemetrics Exercise 10: Confusion matrices Exercise 11: Nogmaals confusion matrices Exercise 12: Precision vs. recall Exercise 13: De bias-variance trade-off Exercise 14: Fout door under/overfitting Exercise 15: Heb ik last van underfitting?

Holdout-sets zijn een goed begin voor modelvalidatie. Het gebruik van slechts één train- en testset is echter vaak niet genoeg. Cross-validatie geldt als de gouden standaard voor het valideren van modelprestaties en wordt bijna altijd gebruikt bij het afstellen van modelhyperparameters. Dit hoofdstuk richt zich op het uitvoeren van cross-validatie om modelprestaties te valideren.

Exercise 1: De problemen met holdout-sets Exercise 2: Twee steekproeven Exercise 3: Mogelijke problemen Exercise 4: Cross-validatie Exercise 5: scikit-learn's KFold()Exercise 6: KFold-indices gebruiken

Huidige oefening

Exercise 7: sklearns cross_val_score()Exercise 8: Methode’s van scikit-learn Exercise 9: Implementeer cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: Wanneer gebruik je LOOCV Exercise 12: Leave-one-out-cross-validation

De eerste drie hoofdstukken richtten zich op technieken voor modelvalidatie. In hoofdstuk 4 passen we deze technieken toe—vooral cross-validatie—terwijl we leren over hyperparametertuning. Modelvalidatie maakt tuning immers mogelijk en helpt ons het beste model te kiezen.

Exercise 1: Introductie tot hyperparameter tuning Exercise 2: Hyperparameters aanmaken Exercise 3: Een model draaien met bereiken Exercise 4: RandomizedSearchCV Exercise 5: Voorbereiden op RandomizedSearch Exercise 6: RandomizedSearchCV implementeren Exercise 7: Je definitieve model kiezen Exercise 8: Beste classificatienauwkeurigheid Exercise 9: Het beste precisie-model selecteren Exercise 10: Cursus voltooid!