CommencerCommencer gratuitement

Séparer les colonnes numériques et catégorielles

Dans l’exercice précédent, vous avez exploré les caractéristiques du jeu de données et vous êtes prêt à effectuer un prétraitement. Vous allez maintenant séparer les variables catégorielles et numériques du DataFrame telco_raw en utilisant un seuil personnalisé de nombre de valeurs uniques pour distinguer catégoriel vs numérique. Le module pandas a été importé pour vous sous l’alias pd.

Le jeu de données brut de churn télécom telco_raw a été chargé pour vous sous forme de DataFrame pandas. Prenez le temps de vous familiariser avec les données en les explorant dans la console.

Cet exercice fait partie du cours

Machine Learning pour le marketing en Python

Afficher le cours

Instructions

  • Stockez les noms de colonnes customerID et Churn.
  • Affectez à categorical les noms des colonnes qui ont moins de 5 valeurs uniques.
  • Supprimez target de la liste.
  • Affectez à numerical tous les noms de colonnes qui ne sont pas dans custid, target et categorical.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Store customerID and Churn column names
custid = ['___']
target = ['___']

# Store categorical column names
categorical = telco_raw.___()[telco_raw.nunique() < ___].keys().tolist()

# Remove target from the list of categorical variables
categorical.remove(___[0])

# Store numerical column names
numerical = [x for x in telco_raw.___ if x not in custid + ___ + categorical]
Modifier et exécuter le code