CommencerCommencez gratuitement

Séparer les colonnes numériques et catégorielles

Dans l’exercice précédent, vous avez exploré les caractéristiques du jeu de données et vous êtes prêt à effectuer un prétraitement. Vous allez maintenant séparer les variables catégorielles et numériques du DataFrame telco_raw en utilisant un seuil personnalisé de nombre de valeurs uniques pour distinguer catégoriel vs numérique. Le module pandas a été importé pour vous sous l’alias pd.

Le jeu de données brut de churn télécom telco_raw a été chargé pour vous sous forme de DataFrame pandas. Prenez le temps de vous familiariser avec les données en les explorant dans la console.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>
Voir le cours

Instructions de l’exercice

  • Stockez les noms de colonnes customerID et Churn.
  • Affectez à categorical les noms des colonnes qui ont moins de 5 valeurs uniques.
  • Supprimez target de la liste.
  • Affectez à numerical tous les noms de colonnes qui ne sont pas dans custid, target et categorical.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Store customerID and Churn column names
custid = ['___']
target = ['___']

# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()

# Remove target from the list of categorical variables
categorical.remove(___[0])

# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]
Modifier et exécuter le code