1. Apprendre
  2. /
  3. Cours
  4. /
  5. ETL et ELT en Python

Connected

Exercice

Filtrer des DataFrames pandas

Une fois les données extraites d'un système source, c'est le moment de les transformer ! Souvent, les données sources contiennent plus d'information que nécessaire pour les cas d'utilisation en aval. Dans ce cas, il faut réduire la dimensionnalité durant la phase de « transformation » du pipeline de données.

pandas a été importé sous le nom pd, et la fonction extract() est disponible pour charger un DataFrame à partir du chemin qui lui est transmis.

Instructions

100 XP
  • Utilisez la fonction extract() pour charger le DataFrame stocké au chemin "sales_data.parquet".
  • Mettez à jour la fonction transform() afin de retourner toutes les lignes et colonnes où "Quantity Ordered" est supérieur à 1.
  • Filtrez ensuite le DataFrame clean_data pour ne conserver que les colonnes "Order Date", "Quantity Ordered" et "Purchase Address".
  • Retournez le DataFrame filtré.