Limitando o tamanho da amostra
Outro método para evitar overfitting é especificar, na Decision Tree, o número mínimo de observações necessário para crescer uma folha (ou nó).
Neste exercício, você vai:
- definir esse limite mínimo como 100
- ajustar o novo modelo aos dados dos funcionários
- examinar os resultados das previsões nos conjuntos de treino e de teste
As variáveis features_train, target_train, features_test e target_test já estão disponíveis no seu workspace.
Este exercício faz parte do curso
HR Analytics: prevendo rotatividade de funcionários em Python
Instruções do exercício
- Inicialize o
DecisionTreeClassifiere defina o limite mínimo de 100 observações por folha - Ajuste o modelo de árvore de decisão aos dados de treino.
- Verifique a acurácia das previsões nos conjuntos de treino e de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)
# Fit the model
____.fit(features_train,____)
# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)
# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)