pandas-DataFrames filtern
Sobald die Daten aus einem Quellsystem extrahiert wurden, ist es an der Zeit, sie zu transformieren! Oft enthalten die Quelldaten mehr Informationen, als für die nachgelagerten Anwendungsfälle benötigt werden. Wenn dies der Fall ist, sollte die Dimensionalität während der "Transformationsphase" der Datenpipeline reduziert werden.
pandas
wurde als pd
importiert, und die Funktion extract()
ist verfügbar, um einen DataFrame aus dem übergebenen Pfad zu laden.
Diese Übung ist Teil des Kurses
ETL und ELT in Python
Anleitung zur Übung
- Verwende die Funktion
extract()
, um den DataFrame zu laden, der im Pfad"sales_data.parquet"
gespeichert ist. - Aktualisiere die Funktion
transform()
, um alle Zeilen und Spalten mit"Quantity Ordered"
größer als 1 zurückzugeben. - Filtere den DataFrame
clean_data
weiter, damit er nur die Spalten"Order Date"
,"Quantity Ordered"
und"Purchase Address"
enthält. - Gibt den gefilterten DataFrame zurück.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")
def transform(raw_data):
# Only keep rows with `Quantity Ordered` greater than 1
clean_data = raw_data.____[____, :]
# Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
clean_data = ____
# Return the filtered DataFrame
return ____
transform(raw_sales_data)