Explorar a taxa de churn e dividir os dados
Com base na visão geral que você viu no Capítulo 1, nesta lição você vai se aprofundar na preparação dos dados necessária para usar Machine Learning na previsão de churn. Você vai explorar a distribuição de churn e dividir os dados em treino e teste antes de partir para a modelagem. Nesta etapa, você entende como a taxa de churn está distribuída e faz o pré-processamento dos dados para poder construir um modelo no conjunto de treino e medir seu desempenho nos dados de teste não usados.
O conjunto de dados de telecom foi carregado como um DataFrame do pandas chamado telcom. A coluna da variável alvo se chama Churn.
Este exercício faz parte do curso
Machine Learning para Marketing em Python
Instruções do exercício
- Imprima os valores únicos na coluna
Churn. - Calcule a proporção do tamanho de cada grupo de churn.
- Importe a função para dividir os dados em treino e teste.
- Divida os dados em 75% para treino e 25% para teste.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the unique Churn values
print(___(telcom['Churn']))
# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100
# Import the function for splitting data to train and test
from sklearn.model_selection import ___
# Split the data into train and test
train, test = ___(telcom, test_size = .25)