IniziaInizia gratis

Filtrare i DataFrame di pandas

Una volta estratti i dati da un sistema sorgente, è il momento di trasformarli! Spesso i dati di origine contengono più informazioni di quante ne servano per gli utilizzi a valle. In questi casi, conviene ridurre la dimensionalità durante la fase di "transform" della pipeline dei dati.

pandas è stato importato come pd ed è disponibile la funzione extract() per caricare un DataFrame dal percorso passato.

Questo esercizio fa parte del corso

ETL and ELT in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Usa la funzione extract() per caricare il DataFrame presente nel percorso "sales_data.parquet".
  • Aggiorna la funzione transform() per restituire tutte le righe e le colonne con "Quantity Ordered" maggiore di 1.
  • Filtra ulteriormente il DataFrame clean_data includendo solo le colonne "Order Date", "Quantity Ordered" e "Purchase Address".
  • Restituisci il DataFrame filtrato.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Modifica ed esegui il codice