Dividir dados em treino e teste
Último passo antes de partirmos para construir o modelo de regressão! Aqui, você vai seguir as etapas de identificar os nomes da variável-alvo e das colunas de features, extrair os dados e dividi-los em treino e teste.
As bibliotecas pandas e numpy já foram carregadas como pd e np, respectivamente. As variáveis de entrada foram importadas como o conjunto de dados features, e a variável-alvo que você criou no exercício anterior foi importada para você como Y.
Este exercício faz parte do curso
Machine Learning para Marketing em Python
Instruções do exercício
- Armazene o nome da coluna de identificador do cliente como uma lista.
- Selecione os nomes das colunas de features, excluindo o identificador do cliente.
- Extraia as features como
X. - Divida os dados em treino e teste usando a função
train_test_split().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Store customer identifier column name as a list
custid = ['___']
# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]
# Extract the features as `X`
X = features[___]
# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)