Filtern von Pandas DataFrames

Sobald die Daten aus einem Quellsystem extrahiert wurden, ist es an der Zeit, sie zu transformieren! Oft enthalten die Quelldaten mehr Informationen, als für nachgelagerte Anwendungsfälle benötigt werden. Wenn dies der Fall ist, sollte die Dimensionalität während der "Transformationsphase" der Datenpipeline reduziert werden.

pandas wurde als pd importiert, und die Funktion extract() ist verfügbar, um einen DataFrame aus dem übergebenen Pfad zu laden.

Diese Übung ist Teil des Kurses

<Kurs>ETL und ELT mit Python</Kurs>

Kurs ansehen

Übungsanweisungen

Verwende die Funktion extract(), um den DataFrame zu laden, der im Pfad "sales_data.parquet" gespeichert ist.
Aktualisiere die Funktion transform(), um alle Zeilen und Spalten mit "Quantity Ordered" größer als 1 zurückzugeben.
Filtere den clean_data DataFrame weiter, damit er nur die Spalten "Order Date", "Quantity Ordered" und "Purchase Address" enthält.
Gibt den gefilterten DataFrame zurück.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)

Code bearbeiten und ausführen