Dividindo os dados de funcionários
Overfitting do conjunto de dados é um problema comum em análises. Isso acontece quando um modelo funciona bem no conjunto em que foi desenvolvido, mas não consegue generalizar fora dele.
Um train/test split é usado para garantir a generalização do modelo: você desenvolve o modelo usando a amostra de treino e o testa depois na amostra de teste.
Neste exercício, você vai dividir target e features em conjuntos de treino e teste, respectivamente, com proporção de 75%/25%.
Este exercício faz parte do curso
HR Analytics: prevendo rotatividade de funcionários em Python
Instruções do exercício
- Importe
train_test_splitdo módulosklearn.model_selection - Use
train_test_split()para dividir seu conjunto de dados em conjuntos de treino e teste - Atribua 25% das suas observações ao conjunto de teste
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the function for splitting dataset into train and test
from sklearn.model_selection import ____
# Use that function to create the splits both for target and for features
# Set the test sample to be 25% of your observations
target_train, target_test, features_train, features_test = ____(target,features,____=0.25,random_state=42)