Verkoopgegevens laden naar een CSV-bestand
Data laden is een essentieel onderdeel van elke datapijplijn. Het zorgt ervoor dat alle datagebruikers en -processen betrouwbare toegang hebben tot data die je eerder in de pijplijn hebt geëxtraheerd en getransformeerd. In deze oefening ga je geoefende, getransformeerde verkoopgegevens laden naar een CSV-bestand met pandas, dat is geïmporteerd als pd. Daarnaast is de ruwe data al geëxtraheerd en beschikbaar in de DataFrame raw_sales_data.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Filter de DataFrame
raw_sales_datazodat alleen items met een prijs lager dan 25 dollar overblijven. - Werk de functie
load()bij om de getransformeerde verkoopgegevens te schrijven naar een bestand met de naam"transformed_sales_data.csv", en zorg dat de kolomindexniet wordt opgenomen. - Roep de functie
load()aan op de opgeschoonde DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
def transform(raw_data):
# Find the items prices less than 25 dollars
return raw_data.loc[raw_data["Price Each"] ____ ____, ["Order ID", "Product", "Price Each", "Order Date"]]
def load(clean_data):
# Write the data to a CSV file without the index column
____.____("transformed_sales_data.csv", index=____)
clean_sales_data = transform(raw_sales_data)
# Call the load function on the cleaned DataFrame
____(____)