Filtern von Pandas DataFrames
Sobald die Daten aus einem Quellsystem extrahiert wurden, ist es an der Zeit, sie zu transformieren! Oft enthalten die Quelldaten mehr Informationen, als für nachgelagerte Anwendungsfälle benötigt werden. Wenn dies der Fall ist, sollte die Dimensionalität während der "Transformationsphase" der Datenpipeline reduziert werden.
pandas
wurde als pd
importiert, und die Funktion extract()
ist verfügbar, um einen DataFrame aus dem übergebenen Pfad zu laden.
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Verwende die Funktion
extract()
, um den DataFrame zu laden, der im Pfad"sales_data.parquet"
gespeichert ist. - Aktualisiere die Funktion
transform()
, um alle Zeilen und Spalten mit"Quantity Ordered"
größer als 1 zurückzugeben. - Filtere den
clean_data
DataFrame weiter, damit er nur die Spalten"Order Date"
,"Quantity Ordered"
und"Purchase Address"
enthält. - Gibt den gefilterten DataFrame zurück.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)