Filtrare i DataFrame di pandas

Una volta estratti i dati da un sistema sorgente, è il momento di trasformarli! Spesso i dati di origine contengono più informazioni di quante ne servano per gli utilizzi a valle. In questi casi, conviene ridurre la dimensionalità durante la fase di "transform" della pipeline dei dati.

pandas è stato importato come pd ed è disponibile la funzione extract() per caricare un DataFrame dal percorso passato.

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza corso

Istruzioni dell'esercizio

Usa la funzione extract() per caricare il DataFrame presente nel percorso "sales_data.parquet".
Aggiorna la funzione transform() per restituire tutte le righe e le colonne con "Quantity Ordered" maggiore di 1.
Filtra ulteriormente il DataFrame clean_data includendo solo le colonne "Order Date", "Quantity Ordered" e "Purchase Address".
Restituisci il DataFrame filtrato.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)

Modifica ed esegui il codice