LoslegenKostenlos loslegen

pandas-DataFrames filtern

Sobald die Daten aus einem Quellsystem extrahiert wurden, ist es an der Zeit, sie zu transformieren! Oft enthalten die Quelldaten mehr Informationen, als für die nachgelagerten Anwendungsfälle benötigt werden. Wenn dies der Fall ist, sollte die Dimensionalität während der "Transformationsphase" der Datenpipeline reduziert werden.

pandas wurde als pd importiert, und die Funktion extract() ist verfügbar, um einen DataFrame aus dem übergebenen Pfad zu laden.

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Funktion extract(), um den DataFrame zu laden, der im Pfad "sales_data.parquet" gespeichert ist.
  • Aktualisiere die Funktion transform(), um alle Zeilen und Spalten mit "Quantity Ordered" größer als 1 zurückzugeben.
  • Filtere den DataFrame clean_data weiter, damit er nur die Spalten "Order Date", "Quantity Ordered" und "Purchase Address" enthält.
  • Gibt den gefilterten DataFrame zurück.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Code bearbeiten und ausführen