Het model instantiëren

In de volgende reeks oefeningen ga je de bias- en variance-problemen van een regressieboom diagnosticeren. De regressieboom die je in deze oefening opstelt, wordt gebruikt om het mpg-verbruik van auto's uit de auto-gegevensset te voorspellen met alle beschikbare features.

We hebben de data al verwerkt en de featurematrix X en de array y in je werkruimte geladen. Daarnaast is de klasse DecisionTreeRegressor geïmporteerd uit sklearn.tree.

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in Python

Oefeninstructies

Importeer train_test_split uit sklearn.model_selection.
Splits de data in 70% train en 30% test.
Instantieer een DecisionTreeRegressor met een maximale diepte van 4 en min_samples_leaf ingesteld op 0.26.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import train_test_split from sklearn.model_selection
____

# Set SEED for reproducibility
SEED = 1

# Split the data into 70% train and 30% test
X_train, X_test, y_train, y_test = ____(____, ____, test_size=____, random_state=SEED)

# Instantiate a DecisionTreeRegressor dt
dt = ____(____=____, ____=____, random_state=SEED)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Machine Learning met boomgebaseerde modellen in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Begin gratis met de cursus

Classification and Regression Trees (CART) zijn een set supervised learning-modellen voor classificatie- en regressieproblemen. In dit hoofdstuk maak je kennis met het CART-algoritme.

Exercise 1: Beslissingsboom voor classificatie Exercise 2: Train je eerste classificatieboom Exercise 3: Evalueer de classificatieboom Exercise 4: Logistische regressie vs. classificatieboom Exercise 5: Classification tree leren Exercise 6: Een classificatieboom laten groeien Exercise 7: Entropie als criterium gebruiken Exercise 8: Entropie vs. Gini-index Exercise 9: Beslissingsboom voor regressie Exercise 10: Train je eerste regressieboom Exercise 11: Evalueer de regressieboom Exercise 12: Lineaire regressie vs regressieboom

De bias-variance-afruil is een van de basisconcepten in supervised Machine Learning. In dit hoofdstuk leer je hoe je de problemen van overfitting en underfitting herkent. Je maakt ook kennis met het concept ensembling, waarbij de voorspellingen van meerdere modellen worden samengevoegd om robuustere voorspellingen te krijgen.

Exercise 1: Generalisatiefout Exercise 2: Complexiteit, bias en variantie Exercise 3: Overfitting en underfitting Exercise 4: Diagnoseer bias- en variantieproblemen Exercise 5: Het model instantiëren

Huidige oefening

Exercise 6: Evalueer de 10-voudige CV-fout Exercise 7: Evalueer de trainingsfout Exercise 8: Hoge bias of hoge variance?Exercise 9: Ensemble learning Exercise 10: Definieer het ensemble Exercise 11: Beoordeel afzonderlijke classificatiemodellen Exercise 12: Betere prestaties met een Voting Classifier

Bagging is een ensemblemethode waarbij hetzelfde algoritme meerdere keren wordt getraind op verschillende subsets die uit de trainingsgegevens zijn getrokken. In dit hoofdstuk leer je hoe je met bagging een boomensemble kunt maken. Je leert ook hoe het random forests-algoritme voor extra ensemblediversiteit kan zorgen door randomisatie bij elke split in de bomen waaruit het ensemble bestaat.

Exercise 1: Bagging Exercise 2: Definieer de bagging-classifier Exercise 3: Prestaties van Bagging evalueren Exercise 4: Out-of-bag-evaluatie Exercise 5: Voorbereiden Exercise 6: OOB-score vs. testset-score Exercise 7: Random Forests (RF)Exercise 8: Train een RF-regressor Exercise 9: Evalueer de RF-regressor Exercise 10: Feature-importances visualiseren

Boosting is een ensemblemethode waarbij meerdere modellen sequentieel worden getraind, waarbij elk model leert van de fouten van zijn voorgangers. In dit hoofdstuk maak je kennis met de twee boostingmethoden AdaBoost en Gradient Boosting.

Exercise 1: Adaboost Exercise 2: Definieer de AdaBoost-classifier Exercise 3: Train de AdaBoost-classifier Exercise 4: Evalueer de AdaBoost-classifier Exercise 5: Gradient Boosting (GB)Exercise 6: Definieer de GB-regressor Exercise 7: Train de GB-regressor Exercise 8: Evalueer de GB-regressor Exercise 9: Stochastic Gradient Boosting (SGB)Exercise 10: Regressie met SGB Exercise 11: Train de SGB-regressor Exercise 12: Evalueer de SGB-regressor

De hyperparameters van een Machine Learning-model zijn parameters die niet uit data worden geleerd. Ze moeten worden ingesteld voordat je het model op de trainingsset fit. In dit hoofdstuk leer je hoe je de hyperparameters van een boomgebaseerd model afstemt met grid search cross-validation.

Exercise 1: De hyperparameters van een CART afstemmen Exercise 2: Hyperparameters van bomen Exercise 3: Stel het hyperparameterrooster van de boom in Exercise 4: Zoek naar de optimale boom Exercise 5: Evalueer de optimale boom Exercise 6: De hyperparameters van een RF afstemmen Exercise 7: Hyperparameters van random forests Exercise 8: Stel het hyperparameterrooster van RF in Exercise 9: Zoek naar het optimale bos Exercise 10: Evalueer het optimale bos Exercise 11: Gefeliciteerd!