Filtrer les DataFrames pandas

Une fois les données extraites d'un système source, il est temps de les transformer ! Souvent, les données sources peuvent contenir plus d'informations que ce qui est nécessaire pour les cas d'utilisation en aval. Si tel est le cas, la dimensionnalité doit être réduite au cours de la phase de "transformation" du pipeline de données.

pandas a été importée sous le nom de pd, et la fonction extract() est disponible pour charger un DataFrame à partir du chemin d'accès qui lui a été transmis.

Cet exercice fait partie du cours

<cours>ETL et ELT en Python</cours>

Voir le cours

Instructions de l’exercice

Utilisez la fonction extract() pour charger le DataFrame stocké dans le chemin d'accès "sales_data.parquet".
Mettez à jour la fonction transform() pour qu'elle renvoie toutes les lignes et colonnes dont "Quantity Ordered" est supérieur à 1.
Filtrez davantage le DataFrame clean_data pour n'inclure que les colonnes "Order Date", "Quantity Ordered" et "Purchase Address".
Retourne le DataFrame filtré.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)

Modifier et exécuter le code