Verkoopgegevens transformeren met pandas
Voordat je inzichten uit een gegevensset kunt halen, moet je soms kolomtypen aanpassen om de data goed te kunnen gebruiken. Dit komt vooral vaak voor bij temporele datatypen, die op verschillende manieren kunnen zijn opgeslagen.
Voor dit voorbeeld is pandas geïmporteerd als pd en klaar voor gebruik.
Deze oefening maakt deel uit van de cursus
ETL en ELT in Python
Oefeninstructies
- Werk de functie
transform()bij zodat de data in de kolom"Order Date"wordt omgezet naar het typedatetime. - Filter het DataFrame zodat alleen rijen met
"Price Each"lager dan tien dollar overblijven. - Print de datatypes van elke kolom in het DataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
raw_sales_data = extract("sales_data.csv")
def transform(raw_data):
# Convert the "Order Date" column to type datetime
raw_data["Order Date"] = pd.____(____, format="%m/%d/%y %H:%M")
# Only keep items under ten dollars
clean_data = raw_data.loc[____, :]
return clean_data
clean_sales_data = transform(raw_sales_data)
# Check the data types of each column
print(____)