Treinando com bootstrapping
Agora vamos construir um classificador de árvore de decisão "fraco" e treiná-lo em uma amostra do conjunto de treino extraída com reposição. Isso vai ajudar você a entender o que acontece em cada iteração de um ensemble de bagging.
Para obter uma amostra, você usará o método .sample() do pandas, que possui o parâmetro replace. Por exemplo, a linha de código a seguir amostra com reposição de todo o DataFrame df:
df.sample(frac=1.0, replace=True, random_state=42)
Este exercício faz parte do curso
Métodos de Ensemble em Python
Instruções do exercício
- Tire uma amostra com reposição (
replace=True) de todo (frac=1.0) o conjunto de treino,X_train. - Construa um classificador de árvore de decisão usando o parâmetro
max_depth = 4. - Ajuste o modelo aos dados de treino amostrados.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Take a sample with replacement
X_train_sample = X_train.____(____, ____, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]
# Build a "weak" Decision Tree classifier
clf = ____(____, random_state=500)
# Fit the model to the training sample
____