Dividindo os dados de funcionários

Overfitting do conjunto de dados é um problema comum em análises. Isso acontece quando um modelo funciona bem no conjunto em que foi desenvolvido, mas não consegue generalizar fora dele.

Um train/test split é usado para garantir a generalização do modelo: você desenvolve o modelo usando a amostra de treino e o testa depois na amostra de teste.

Neste exercício, você vai dividir target e features em conjuntos de treino e teste, respectivamente, com proporção de 75%/25%.

Este exercício faz parte do curso

HR Analytics: prevendo rotatividade de funcionários em Python

Ver curso

Instruções do exercício

Importe train_test_split do módulo sklearn.model_selection
Use train_test_split() para dividir seu conjunto de dados em conjuntos de treino e teste
Atribua 25% das suas observações ao conjunto de teste

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____

# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)

Editar e executar o código