Podando a árvore
Overfitting é um problema clássico em analytics, especialmente no algoritmo de árvore de decisão. Quando a árvore cresce totalmente, ela pode gerar previsões muito precisas para a amostra de treino, mas não manter a mesma precisão no conjunto de teste. Por isso, o crescimento da árvore de decisão geralmente é controlado por:
- “Podar” a árvore e definir um limite para a profundidade máxima que ela pode ter.
- Limitar o número mínimo de observações em uma folha da árvore.
Neste exercício, você vai:
- podar a árvore e limitar o crescimento a 5 níveis de profundidade
- ajustá-la aos dados de colaboradores
- testar os resultados das previsões nos conjuntos de treino e de teste.
As variáveis features_train, target_train, features_test e target_test já estão disponíveis no seu ambiente de trabalho.
Este exercício faz parte do curso
HR Analytics: prevendo rotatividade de funcionários em Python
Instruções do exercício
- Inicialize o
DecisionTreeClassifierlimitando a profundidade da árvore a 5. - Ajuste o modelo de Árvore de Decisão usando as
featurese atargetdo conjunto de treinamento. - Verifique a acurácia das previsões nos conjuntos de treino e de teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Initialize the DecisionTreeClassifier while limiting the depth of the tree to 5
model_depth_5 = DecisionTreeClassifier(____=5, random_state=42)
# Fit the model
____.fit(features_train,target_train)
# Print the accuracy of the prediction for the training set
print(____.____(features_train,target_train)*100)
# Print the accuracy of the prediction for the test set
print(model_depth_5.score(____,____)*100)