OOB-score vs. testset-score

Nu je bc hebt geïnstantieerd, ga je het model fitten op de trainingsset en de nauwkeurigheid op zowel de testset als de OOB-schatting evalueren.

De gegevensset is al voor je verwerkt en gesplitst in 80% train en 20% test. De feature-matrices X_train en X_test, en de label-arrays y_train en y_test zijn beschikbaar in je werkruimte. Daarnaast hebben we de classifier bc (geïnstantieerd in de vorige oefening) en de functie accuracy_score() uit sklearn.metrics al geladen.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in Python

Oefeninstructies

Fit bc op de trainingsset, voorspel de labels voor de testset en sla de resultaten op in y_pred.
Evalueer de testset-nauwkeurigheid acc_test door accuracy_score aan te roepen.
Evalueer de OOB-nauwkeurigheid acc_oob van bc door het attribuut oob_score_ uit bc te halen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit bc to the training set 
____.____(____, ____)

# Predict test set labels
y_pred = ____.____(____)

# Evaluate test set accuracy
acc_test = ____(____, ____)

# Evaluate OOB accuracy
acc_oob = ____.____

# Print acc_test and acc_oob
print('Test set accuracy: {:.3f}, OOB accuracy: {:.3f}'.format(acc_test, acc_oob))

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Classification and Regression Trees (CART) zijn een set supervised learning-modellen voor classificatie- en regressieproblemen. In dit hoofdstuk maak je kennis met het CART-algoritme.

Exercise 1: Beslissingsboom voor classificatie Exercise 2: Train je eerste classificatieboom Exercise 3: Evalueer de classificatieboom Exercise 4: Logistische regressie vs. classificatieboom Exercise 5: Classification tree leren Exercise 6: Een classificatieboom laten groeien Exercise 7: Entropie als criterium gebruiken Exercise 8: Entropie vs. Gini-index Exercise 9: Beslissingsboom voor regressie Exercise 10: Train je eerste regressieboom Exercise 11: Evalueer de regressieboom Exercise 12: Lineaire regressie vs regressieboom

De bias-variance-afruil is een van de basisconcepten in supervised Machine Learning. In dit hoofdstuk leer je hoe je de problemen van overfitting en underfitting herkent. Je maakt ook kennis met het concept ensembling, waarbij de voorspellingen van meerdere modellen worden samengevoegd om robuustere voorspellingen te krijgen.

Exercise 1: Generalisatiefout Exercise 2: Complexiteit, bias en variantie Exercise 3: Overfitting en underfitting Exercise 4: Diagnoseer bias- en variantieproblemen Exercise 5: Het model instantiëren Exercise 6: Evalueer de 10-voudige CV-fout Exercise 7: Evalueer de trainingsfout Exercise 8: Hoge bias of hoge variance?Exercise 9: Ensemble learning Exercise 10: Definieer het ensemble Exercise 11: Beoordeel afzonderlijke classificatiemodellen Exercise 12: Betere prestaties met een Voting Classifier

Bagging is een ensemblemethode waarbij hetzelfde algoritme meerdere keren wordt getraind op verschillende subsets die uit de trainingsgegevens zijn getrokken. In dit hoofdstuk leer je hoe je met bagging een boomensemble kunt maken. Je leert ook hoe het random forests-algoritme voor extra ensemblediversiteit kan zorgen door randomisatie bij elke split in de bomen waaruit het ensemble bestaat.

Exercise 1: Bagging Exercise 2: Definieer de bagging-classifier Exercise 3: Prestaties van Bagging evalueren Exercise 4: Out-of-bag-evaluatie Exercise 5: Voorbereiden Exercise 6: OOB-score vs. testset-score

Huidige oefening

Exercise 7: Random Forests (RF)Exercise 8: Train een RF-regressor Exercise 9: Evalueer de RF-regressor Exercise 10: Feature-importances visualiseren

Boosting is een ensemblemethode waarbij meerdere modellen sequentieel worden getraind, waarbij elk model leert van de fouten van zijn voorgangers. In dit hoofdstuk maak je kennis met de twee boostingmethoden AdaBoost en Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Definieer de AdaBoost-classifier Exercise 3: Train de AdaBoost-classifier Exercise 4: Evalueer de AdaBoost-classifier Exercise 5: Gradient Boosting (GB)Exercise 6: Definieer de GB-regressor Exercise 7: Train de GB-regressor Exercise 8: Evalueer de GB-regressor Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regressie met SGB Exercise 11: Train de SGB-regressor Exercise 12: Evalueer de SGB-regressor

De hyperparameters van een Machine Learning-model zijn parameters die niet uit data worden geleerd. Ze moeten worden ingesteld voordat je het model op de trainingsset fit. In dit hoofdstuk leer je hoe je de hyperparameters van een boomgebaseerd model afstemt met grid search cross-validation.

Exercise 1: De hyperparameters van een CART afstemmen Exercise 2: Hyperparameters van bomen Exercise 3: Stel het hyperparameterrooster van de boom in Exercise 4: Zoek naar de optimale boom Exercise 5: Evalueer de optimale boom Exercise 6: De hyperparameters van een RF afstemmen Exercise 7: Hyperparameters van random forests Exercise 8: Stel het hyperparameterrooster van RF in Exercise 9: Zoek naar het optimale bos Exercise 10: Evalueer het optimale bos Exercise 11: Gefeliciteerd!