Dividir dados em treinamento e teste

Agora você está pronto para criar um modelo de Machine Learning de ponta a ponta seguindo alguns passos simples! Você vai explorar nuances de modelagem com muito mais detalhe nos próximos capítulos, mas, por enquanto, vai praticar e entender as etapas essenciais.

As variáveis independentes já foram carregadas para você como um DataFrame do pandas chamado X, e os valores dependentes como uma Series do pandas chamada Y.

Além disso, a função train_test_split foi carregada da biblioteca sklearn. Agora você vai criar os conjuntos de treinamento e teste e, em seguida, verificar se os dados foram divididos corretamente.

Este exercício faz parte do curso

Machine Learning para Marketing em Python

Ver curso

Instruções do exercício

Divida X e Y em conjuntos de treino e teste, com 25% dos dados destinados ao teste.
Garanta que o conjunto de treinamento tenha apenas 75% dos dados originais.
Garanta que o conjunto de teste tenha apenas 25% dos dados originais.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Split X and Y into training and testing datasets
train_X, test_X, train_Y, test_Y = ___(___, ___, test_size=0.___)

# Ensure training dataset has only 75% of original X data
print(___.shape[0] / X.shape[0])

# Ensure testing dataset has only 25% of original X data
print(___.shape[0] / ___.shape[0])

Editar e executar o código