1. products.learn
  2. /
  3. Course
  4. /
  5. Nettoyage des données en Python

Connected

exercise

Reclasser des catégories

Pour mieux comprendre les répondants du sondage de airlines, vous voulez vérifier s’il existe un lien entre certaines réponses, le jour de la semaine et le temps d’attente à la porte d’embarquement.

Le DataFrame airlines contient les colonnes day et wait_min, qui sont respectivement de types catégoriel et numérique. La colonne day indique le jour précis où le vol a eu lieu, et wait_min contient le nombre de minutes d’attente à la porte. Pour faciliter votre analyse, vous souhaitez créer deux nouvelles variables catégorielles :

  • wait_type : 'short' pour 0-60 min, 'medium' pour 60-180 et long pour 180+
  • day_week : 'weekday' si le jour est en semaine, 'weekend' si le jour est en fin de semaine.

Les forfaits pandas et numpy ont été importés sous les alias pd et np. Créons de nouvelles données catégorielles !

NormalInstructionHeader.heading

100 XP
  • Créez les intervalles et les étiquettes pour la colonne wait_type tels que décrits plus haut.
  • Créez la colonne wait_type à partir de wait_min en utilisant pd.cut(), en fournissant label_ranges et label_names dans les bons arguments.
  • Créez le dictionnaire mapping qui associe les jours de semaine à 'weekday' et les jours de fin de semaine à 'weekend'.
  • Créez la colonne day_week en utilisant .replace().