Erste SchritteKostenlos loslegen

Filtern von Pandas DataFrames

Sobald die Daten aus einem Quellsystem extrahiert wurden, ist es an der Zeit, sie zu transformieren! Oft enthalten die Quelldaten mehr Informationen, als für nachgelagerte Anwendungsfälle benötigt werden. Wenn dies der Fall ist, sollte die Dimensionalität während der "Transformationsphase" der Datenpipeline reduziert werden.

pandas wurde als pd importiert, und die Funktion extract() ist verfügbar, um einen DataFrame aus dem übergebenen Pfad zu laden.

Diese Übung ist Teil des Kurses

ETL und ELT in Python

Kurs anzeigen

Anleitung zur Übung

  • Verwende die Funktion extract(), um den DataFrame zu laden, der im Pfad "sales_data.parquet" gespeichert ist.
  • Aktualisiere die Funktion transform(), um alle Zeilen und Spalten mit "Quantity Ordered" größer als 1 zurückzugeben.
  • Filtere den clean_data DataFrame weiter, damit er nur die Spalten "Order Date", "Quantity Ordered" und "Purchase Address" enthält.
  • Gibt den gefilterten DataFrame zurück.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Extract data from the sales_data.parquet path
raw_sales_data = ____("sales_data.parquet")

def transform(raw_data):
  	# Only keep rows with `Quantity Ordered` greater than 1
    clean_data = raw_data.____[____, :]
    
    # Only keep columns "Order Date", "Quantity Ordered", and "Purchase Address"
    clean_data = ____
    
    # Return the filtered DataFrame
    return ____
    
transform(raw_sales_data)
Bearbeiten und Ausführen von Code