Explorer le taux de churn et scinder les données

En partant de l’aperçu vu au Chapitre 1, vous allez dans cette leçon approfondir la préparation des données nécessaire pour utiliser le Machine Learning afin de prédire le churn. Vous allez examiner la distribution du churn, puis scinder les données en ensembles d’entraînement et de test avant de passer au modèle. À cette étape, vous comprenez comment le taux de churn se répartit et vous prétraitez les données pour pouvoir entraîner un modèle sur l’ensemble d’entraînement et mesurer ses performances sur des données de test non utilisées.

Le jeu de données télécom a été chargé dans un DataFrame pandas nommé telcom. La variable cible s’appelle Churn.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>

Voir le cours

Instructions de l’exercice

Affichez les valeurs uniques de la colonne Churn.
Calculez la proportion de chaque groupe de churn.
Importez la fonction permettant de scinder les données en entraînement et test.
Scindez les données en 75 % entraînement et 25 % test.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Print the unique Churn values
print(___(telcom['Churn']))

# Calculate the ratio size of each churn group
telcom.___(['Churn']).size() / telcom.shape[0] * 100

# Import the function for splitting data to train and test
from sklearn.model_selection import ___

# Split the data into train and test
train, test = ___(telcom, test_size = .25)

Modifier et exécuter le code