Aan de slagGa gratis aan de slag

pandas-DataFrames filteren

Zodra gegevens uit een bronsysteem zijn gehaald, is het tijd om ze te transformeren! Brondata bevat vaak meer informatie dan nodig is voor downstream-use cases. Als dat zo is, moet de dimensionaliteit worden teruggebracht tijdens de "transform"-fase van de datapijplijn.

pandas is geïmporteerd als pd, en de functie extract() is beschikbaar om een DataFrame te laden vanaf het opgegeven pad.

Deze oefening maakt deel uit van de cursus

ETL en ELT in Python

Cursus bekijken

Oefeninstructies

  • Gebruik de functie extract() om het DataFrame te laden dat is opgeslagen op het pad "sales_data.parquet".
  • Werk de functie transform() bij zodat alle rijen en kolommen worden geretourneerd met "Quantity Ordered" groter dan 1.
  • Filter het clean_data-DataFrame verder zodat alleen de kolommen "Order Date", "Quantity Ordered" en "Purchase Address" overblijven.
  • Retourneer het gefilterde DataFrame.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Code bewerken en uitvoeren