ComeçarComece de graça

Podando a árvore

Overfitting é um problema clássico em analytics, especialmente no algoritmo de árvore de decisão. Quando a árvore cresce totalmente, ela pode gerar previsões muito precisas para a amostra de treino, mas não manter a mesma precisão no conjunto de teste. Por isso, o crescimento da árvore de decisão geralmente é controlado por:

  • “Podar” a árvore e definir um limite para a profundidade máxima que ela pode ter.
  • Limitar o número mínimo de observações em uma folha da árvore.

Neste exercício, você vai:

  • podar a árvore e limitar o crescimento a 5 níveis de profundidade
  • ajustá-la aos dados de colaboradores
  • testar os resultados das previsões nos conjuntos de treino e de teste.

As variáveis features_train, target_train, features_test e target_test já estão disponíveis no seu ambiente de trabalho.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

  • Inicialize o DecisionTreeClassifier limitando a profundidade da árvore a 5.
  • Ajuste o modelo de Árvore de Decisão usando as features e a target do conjunto de treinamento.
  • Verifique a acurácia das previsões nos conjuntos de treino e de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize the DecisionTreeClassifier while limiting the depth of the tree to 5
model_depth_5 = DecisionTreeClassifier(____=5, random_state=42)

# Fit the model
____.fit(features_train,target_train)

# Print the accuracy of the prediction for the training set
print(____.____(features_train,target_train)*100)

# Print the accuracy of the prediction for the test set
print(model_depth_5.score(____,____)*100)
Editar e executar o código