Dividir dados em treino e teste

Último passo antes de partirmos para construir o modelo de regressão! Aqui, você vai seguir as etapas de identificar os nomes da variável-alvo e das colunas de features, extrair os dados e dividi-los em treino e teste.

As bibliotecas pandas e numpy já foram carregadas como pd e np, respectivamente. As variáveis de entrada foram importadas como o conjunto de dados features, e a variável-alvo que você criou no exercício anterior foi importada para você como Y.

Este exercício faz parte do curso

Machine Learning para Marketing em Python

Ver curso

Instruções do exercício

Armazene o nome da coluna de identificador do cliente como uma lista.
Selecione os nomes das colunas de features, excluindo o identificador do cliente.
Extraia as features como X.
Divida os dados em treino e teste usando a função train_test_split().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Store customer identifier column name as a list
custid = ['___']

# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]

# Extract the features as `X`
X = features[___]

# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)

Editar e executar o código