ComenzarEmpieza gratis

Explora la tasa de churn y divide los datos

A partir de la visión general que viste en el Capítulo 1, en esta lección vas a profundizar en la preparación de datos necesaria para usar Machine Learning en la predicción de churn. Explorarás la distribución del churn y dividirás los datos en entrenamiento y prueba antes de pasar al modelado. En este paso comprenderás cómo se distribuye la tasa de churn y preprocesarás los datos para poder construir un modelo con el conjunto de entrenamiento y medir su rendimiento en datos de prueba no utilizados.

El conjunto de datos de telecomunicaciones se ha cargado como un DataFrame de pandas llamado telcom. La columna de la variable objetivo se llama Churn.

Este ejercicio forma parte del curso

Machine Learning para marketing en Python

Ver curso

Instrucciones del ejercicio

  • Imprime los valores únicos de la columna Churn.
  • Calcula la proporción de tamaño de cada grupo de churn.
  • Importa la función para dividir los datos en train y test.
  • Divide los datos en 75% train y 25% test.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print the unique Churn values
print(___(telcom['Churn']))

# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100

# Import the function for splitting data to train and test
from sklearn.model_selection import ___

# Split the data into train and test
train, test = ___(telcom, test_size = .25)
Editar y ejecutar código