Comece agoraComece grátis

Dividindo os dados de funcionários

Overfitting do conjunto de dados é um problema comum em análises. Isso acontece quando um modelo funciona bem no conjunto em que foi desenvolvido, mas não consegue generalizar fora dele.

Um train/test split é usado para garantir a generalização do modelo: você desenvolve o modelo usando a amostra de treino e o testa depois na amostra de teste.

Neste exercício, você vai dividir target e features em conjuntos de treino e teste, respectivamente, com proporção de 75%/25%.

Este exercicio faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercicio

  • Importe train_test_split do módulo sklearn.model_selection
  • Use train_test_split() para dividir seu conjunto de dados em conjuntos de treino e teste
  • Atribua 25% das suas observações ao conjunto de teste

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)
Editar e Executar Código