Filtrare i DataFrame di pandas
Una volta estratti i dati da un sistema sorgente, è il momento di trasformarli! Spesso i dati di origine contengono più informazioni di quante ne servano per gli utilizzi a valle. In questi casi, conviene ridurre la dimensionalità durante la fase di "transform" della pipeline dei dati.
pandas è stato importato come pd ed è disponibile la funzione extract() per caricare un DataFrame dal percorso passato.
Questo esercizio fa parte del corso
ETL and ELT in Python
Istruzioni dell'esercizio
- Usa la funzione
extract()per caricare il DataFrame presente nel percorso"sales_data.parquet". - Aggiorna la funzione
transform()per restituire tutte le righe e le colonne con"Quantity Ordered"maggiore di 1. - Filtra ulteriormente il DataFrame
clean_dataincludendo solo le colonne"Order Date","Quantity Ordered"e"Purchase Address". - Restituisci il DataFrame filtrato.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)