Geziene vs. ongeziene data

Modellen hebben meestal een hogere nauwkeurigheid op observaties die ze eerder hebben gezien. In de candy-gegevensset zal het voorspellen van de populariteit van Skittles waarschijnlijk nauwkeuriger zijn dan het voorspellen van de populariteit van Andes Mints; Skittles staat in de gegevensset en Andes Mints niet.

Je hebt een model gebouwd op basis van 50 snoepjes met de gegevensset X_train en je moet rapporteren hoe nauwkeurig het model is in het voorspellen van de populariteit van de 50 snoepjes waarop het model is getraind, en van de 35 snoepjes (X_test) die het nog nooit heeft gezien. Je gebruikt de mean absolute error, mae(), als nauwkeurigheidsmaatstaf.

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

Oefeninstructies

Maak, met X_train en X_test als invoergegevens, arrays met voorspellingen met model.predict().
Bereken de modelnauwkeurigheid op zowel data die het model heeft gezien als data die het model nog niet heeft gezien.
Gebruik de printstatements om de geziene en ongeziene data te printen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# The model is fit using X_train and y_train
model.fit(X_train, y_train)

# Create vectors of predictions
train_predictions = model.predict(____)
test_predictions = model.predict(____)

# Train/Test Errors
train_error = mae(y_true=y_train, y_pred=____)
test_error = mae(y_true=y_test, y_pred=____)

# Print the accuracy for seen and unseen data
print("Model error on seen data: {0:.2f}.".format(____))
print("Model error on unseen data: {0:.2f}.".format(____))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Modelvalidatie in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Voordat we modellen kunnen valideren, moeten we begrijpen hoe we ze maken en ermee werken. In dit hoofdstuk maak je kennis met het draaien van regressie- en classificatiemodellen in scikit-learn. We gebruiken deze basis voor modelbouw in de rest van de hoofdstukken.

Exercise 1: Introductie tot modelvalidatie Exercise 2: Modelleer-stappen Exercise 3: Geziene vs. ongeziene data

Huidige oefening

Exercise 4: Regressiemodellen Exercise 5: Stel parameters in en train een model Exercise 6: Belang van features Exercise 7: Classificatiemodellen Exercise 8: Classificatievoorspellingen Exercise 9: Modelparameters hergebruiken Exercise 10: Random forest-classificatie

Dit hoofdstuk draait om de basis van modelvalidatie. Van het splitsen van data in trainings-, validatie- en testgegevenssets tot het begrijpen van de bias-variance trade-off: we leggen de basis voor de technieken K-Fold en Leave-One-Out-validatie die we in hoofdstuk drie oefenen.

Exercise 1: Train-, test- en validatiegegevenssets maken Exercise 2: Maak één holdoutset Exercise 3: Maak twee holdout-sets Exercise 4: Waarom holdout-sets gebruiken Exercise 5: Nauwkeurigheidsmaten: regressiemodellen Exercise 6: Gemiddelde absolute fout Exercise 7: Mean squared error Exercise 8: Prestaties op gegevenssubsets Exercise 9: Classificatiemetrics Exercise 10: Confusion matrices Exercise 11: Nogmaals confusion matrices Exercise 12: Precision vs. recall Exercise 13: De bias-variance trade-off Exercise 14: Fout door under/overfitting Exercise 15: Heb ik last van underfitting?

Holdout-sets zijn een goed begin voor modelvalidatie. Het gebruik van slechts één train- en testset is echter vaak niet genoeg. Cross-validatie geldt als de gouden standaard voor het valideren van modelprestaties en wordt bijna altijd gebruikt bij het afstellen van modelhyperparameters. Dit hoofdstuk richt zich op het uitvoeren van cross-validatie om modelprestaties te valideren.

Exercise 1: De problemen met holdout-sets Exercise 2: Twee steekproeven Exercise 3: Mogelijke problemen Exercise 4: Cross-validatie Exercise 5: scikit-learn's KFold()Exercise 6: KFold-indices gebruiken Exercise 7: sklearns cross_val_score()Exercise 8: Methode’s van scikit-learn Exercise 9: Implementeer cross_val_score()Exercise 10: Leave-one-out-cross-validation (LOOCV)Exercise 11: Wanneer gebruik je LOOCV Exercise 12: Leave-one-out-cross-validation

De eerste drie hoofdstukken richtten zich op technieken voor modelvalidatie. In hoofdstuk 4 passen we deze technieken toe—vooral cross-validatie—terwijl we leren over hyperparametertuning. Modelvalidatie maakt tuning immers mogelijk en helpt ons het beste model te kiezen.

Exercise 1: Introductie tot hyperparameter tuning Exercise 2: Hyperparameters aanmaken Exercise 3: Een model draaien met bereiken Exercise 4: RandomizedSearchCV Exercise 5: Voorbereiden op RandomizedSearch Exercise 6: RandomizedSearchCV implementeren Exercise 7: Je definitieve model kiezen Exercise 8: Beste classificatienauwkeurigheid Exercise 9: Het beste precisie-model selecteren Exercise 10: Cursus voltooid!