Entraînement avec bootstrap

Construisons maintenant un classifieur d’arbre de décision « faible » et entraînons-le sur un échantillon de l’ensemble d’entraînement tiré avec remise. Cela vous aidera à comprendre ce qui se passe à chaque itération d’un ensemble de bagging.

Pour prélever un échantillon, vous allez utiliser la méthode .sample() de pandas, qui possède un paramètre replace. Par exemple, la ligne de code suivante effectue un tirage avec remise sur l’intégralité du DataFrame df :

df.sample(frac=1.0, replace=True, random_state=42)

Cet exercice fait partie du cours

Méthodes d’ensemble en Python

Afficher le cours

Instructions

Prélevez un échantillon avec remise (replace=True) sur l’intégralité (frac=1.0) de l’ensemble d’entraînement X_train.
Construisez un classifieur d’arbre de décision avec le paramètre max_depth = 4.
Ajustez le modèle sur les données d’entraînement échantillonnées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Take a sample with replacement
X_train_sample = X_train.____(____, ____, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]

# Build a "weak" Decision Tree classifier
clf = ____(____, random_state=500)

# Fit the model to the training sample
____

Modifier et exécuter le code