Limitando o tamanho da amostra

Outro método para evitar overfitting é especificar, na Decision Tree, o número mínimo de observações necessário para crescer uma folha (ou nó).

Neste exercício, você vai:

definir esse limite mínimo como 100
ajustar o novo modelo aos dados dos funcionários
examinar os resultados das previsões nos conjuntos de treino e de teste

As variáveis features_train, target_train, features_test e target_test já estão disponíveis no seu workspace.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

Inicialize o DecisionTreeClassifier e defina o limite mínimo de 100 observações por folha
Ajuste o modelo de árvore de decisão aos dados de treino.
Verifique a acurácia das previsões nos conjuntos de treino e de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Initialize the DecisionTreeClassifier while limiting the sample size in leaves to 100
model_sample_100 = DecisionTreeClassifier(____, random_state=42)

# Fit the model
____.fit(features_train,____)

# Print the accuracy of the prediction (in percentage points) for the training set
print(____.score(features_train,target_train)*100)

# Print the accuracy of the prediction (in percentage points) for the test set
print(____.____(features_test,target_test)*100)

Editar e executar o código