Séparer les colonnes numériques et catégorielles
Dans l’exercice précédent, vous avez exploré les caractéristiques du jeu de données et vous êtes prêt à effectuer un prétraitement. Vous allez maintenant séparer les variables catégorielles et numériques du DataFrame telco_raw en utilisant un seuil personnalisé de nombre de valeurs uniques pour distinguer catégoriel vs numérique. Le module pandas a été importé pour vous sous l’alias pd.
Le jeu de données brut de churn télécom telco_raw a été chargé pour vous sous forme de DataFrame pandas. Prenez le temps de vous familiariser avec les données en les explorant dans la console.
Cet exercice fait partie du cours
<cours>Machine Learning pour le marketing en Python</cours>Instructions de l’exercice
- Stockez les noms de colonnes
customerIDetChurn. - Affectez à
categoricalles noms des colonnes qui ont moins de 5 valeurs uniques. - Supprimez
targetde la liste. - Affectez à
numericaltous les noms de colonnes qui ne sont pas danscustid,targetetcategorical.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Store customerID and Churn column names
custid = ['___']
target = ['___']
# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()
# Remove target from the list of categorical variables
categorical.remove(___[0])
# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]