Dividir dados em treinamento e teste
Agora você está pronto para criar um modelo de Machine Learning de ponta a ponta seguindo alguns passos simples! Você vai explorar nuances de modelagem com muito mais detalhe nos próximos capítulos, mas, por enquanto, vai praticar e entender as etapas essenciais.
As variáveis independentes já foram carregadas para você como um DataFrame do pandas chamado X, e os valores dependentes como uma Series do pandas chamada Y.
Além disso, a função train_test_split foi carregada da biblioteca sklearn. Agora você vai criar os conjuntos de treinamento e teste e, em seguida, verificar se os dados foram divididos corretamente.
Este exercício faz parte do curso
Machine Learning para Marketing em Python
Instruções do exercício
- Divida
XeYem conjuntos de treino e teste, com 25% dos dados destinados ao teste. - Garanta que o conjunto de treinamento tenha apenas 75% dos dados originais.
- Garanta que o conjunto de teste tenha apenas 25% dos dados originais.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)
# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])
# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])