pandas-DataFrames filteren
Zodra gegevens uit een bronsysteem zijn gehaald, is het tijd om ze te transformeren! Brondata bevat vaak meer informatie dan nodig is voor downstream-use cases. Als dat zo is, moet de dimensionaliteit worden teruggebracht tijdens de "transform"-fase van de datapijplijn.
pandas is geïmporteerd als pd, en de functie extract() is beschikbaar om een DataFrame te laden vanaf het opgegeven pad.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Gebruik de functie
extract()om het DataFrame te laden dat is opgeslagen op het pad"sales_data.parquet". - Werk de functie
transform()bij zodat alle rijen en kolommen worden geretourneerd met"Quantity Ordered"groter dan 1. - Filter het
clean_data-DataFrame verder zodat alleen de kolommen"Order Date","Quantity Ordered"en"Purchase Address"overblijven. - Retourneer het gefilterde DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)