Séparer les colonnes numériques et catégorielles
Dans l’exercice précédent, vous avez exploré les caractéristiques du jeu de données et vous êtes prêt à effectuer un prétraitement. Vous allez maintenant séparer les variables catégorielles et numériques du DataFrame telco_raw en utilisant un seuil personnalisé de nombre de valeurs uniques pour distinguer catégoriel vs numérique. Le module pandas a été importé pour vous sous l’alias pd.
Le jeu de données brut de churn télécom telco_raw a été chargé pour vous sous forme de DataFrame pandas. Prenez le temps de vous familiariser avec les données en les explorant dans la console.
Cet exercice fait partie du cours
Machine Learning pour le marketing en Python
Instructions
- Stockez les noms de colonnes
customerIDetChurn. - Affectez à
categoricalles noms des colonnes qui ont moins de 5 valeurs uniques. - Supprimez
targetde la liste. - Affectez à
numericaltous les noms de colonnes qui ne sont pas danscustid,targetetcategorical.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]