ComeçarComece de graça

Dividir dados em treino e teste

Último passo antes de partirmos para construir o modelo de regressão! Aqui, você vai seguir as etapas de identificar os nomes da variável-alvo e das colunas de features, extrair os dados e dividi-los em treino e teste.

As bibliotecas pandas e numpy já foram carregadas como pd e np, respectivamente. As variáveis de entrada foram importadas como o conjunto de dados features, e a variável-alvo que você criou no exercício anterior foi importada para você como Y.

Este exercício faz parte do curso

Machine Learning para Marketing em Python

Ver curso

Instruções do exercício

  • Armazene o nome da coluna de identificador do cliente como uma lista.
  • Selecione os nomes das colunas de features, excluindo o identificador do cliente.
  • Extraia as features como X.
  • Divida os dados em treino e teste usando a função train_test_split().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Store customer identifier column name as a list
custid = ['___']

# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]

# Extract the features as `X`
X = features[___]

# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)
Editar e executar o código