Trainen met bootstrapping
Laten we nu een "zwakke" beslissingsboom-classifier bouwen en die trainen op een steekproef van de trainingsset die met terugleggen is getrokken. Zo zie je wat er in elke iteratie van een bagging-ensemble gebeurt.
Voor het nemen van een steekproef gebruik je de pandas-methode .sample(), die een parameter replace heeft. Bijvoorbeeld, de volgende regel code neemt een steekproef met terugleggen uit de volledige DataFrame df:
df.sample(frac=1.0, replace=True, random_state=42)
Deze oefening maakt deel uit van de cursus
Ensemblemethoden in Python
Oefeninstructies
- Neem een steekproef met terugleggen (
replace=True) uit de volledige (frac=1.0) trainingsset,X_train. - Bouw een beslissingsboom-classifier met de parameter
max_depth = 4. - Train het model op de getrokken trainingssteekproef.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Take a sample with replacement
X_train_sample = X_train.____(____, ____, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]
# Build a "weak" Decision Tree classifier
clf = ____(____, random_state=500)
# Fit the model to the training sample
____