Training con bootstrapping
Costruiamo ora un classificatore ad albero decisionale "debole" e addestriamolo su un campione dell'insieme di training estratto con reinserimento. Questo ti aiuterà a capire cosa succede a ogni iterazione di un ensemble di bagging.
Per estrarre un campione, userai il metodo .sample() di pandas, che ha il parametro replace. Ad esempio, la seguente riga di codice estrae un campione con reinserimento dall'intero DataFrame df:
df.sample(frac=1.0, replace=True, random_state=42)
Questo esercizio fa parte del corso
Metodi Ensemble in Python
Istruzioni dell'esercizio
- Estrai un campione con reinserimento (
replace=True) dall'intero (frac=1.0) insieme di training,X_train. - Crea un classificatore ad albero decisionale usando il parametro
max_depth = 4. - Addestra il modello sui dati di training campionati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Take a sample with replacement
X_train_sample = X_train.____(____, ____, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]
# Build a "weak" Decision Tree classifier
clf = ____(____, random_state=500)
# Fit the model to the training sample
____