Filtrer les DataFrames pandas
Une fois les données extraites d'un système source, il est temps de les transformer ! Souvent, les données sources peuvent contenir plus d'informations que ce qui est nécessaire pour les cas d'utilisation en aval. Si tel est le cas, la dimensionnalité doit être réduite au cours de la phase de "transformation" du pipeline de données.
pandas
a été importée en tant que pd
, et la fonction extract()
est disponible pour charger un DataFrame à partir du chemin d'accès qui lui a été transmis.
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Utilisez la fonction
extract()
pour charger le DataFrame stocké dans le chemin d'accès"sales_data.parquet"
. - Mettez à jour la fonction
transform()
pour qu'elle renvoie toutes les lignes et colonnes dont"Quantity Ordered"
est supérieur à 1. - Filtrez davantage le DataFrame
clean_data
pour n'inclure que les colonnes"Order Date"
,"Quantity Ordered"
et"Purchase Address"
. - Renvoie le DataFrame filtré.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)