Entraînement avec bootstrap
Construisons maintenant un classifieur d’arbre de décision « faible » et entraînons-le sur un échantillon de l’ensemble d’entraînement tiré avec remise. Cela vous aidera à comprendre ce qui se passe à chaque itération d’un ensemble de bagging.
Pour prélever un échantillon, vous allez utiliser la méthode .sample() de pandas, qui possède un paramètre replace. Par exemple, la ligne de code suivante effectue un tirage avec remise sur l’intégralité du DataFrame df :
df.sample(frac=1.0, replace=True, random_state=42)
Cet exercice fait partie du cours
Méthodes d’ensemble en Python
Instructions
- Prélevez un échantillon avec remise (
replace=True) sur l’intégralité (frac=1.0) de l’ensemble d’entraînementX_train. - Construisez un classifieur d’arbre de décision avec le paramètre
max_depth = 4. - Ajustez le modèle sur les données d’entraînement échantillonnées.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Take a sample with replacement
X_train_sample = X_train.____(____, ____, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]
# Build a "weak" Decision Tree classifier
clf = ____(____, random_state=500)
# Fit the model to the training sample
____