Erste SchritteKostenlos loslegen

Einen Spark DataFrame pandafizieren

Angenommen, du hast eine Abfrage über deinen riesigen Datensatz laufen lassen und ihn auf eine überschaubare Größe reduziert.

Manchmal ist es sinnvoll, diese Tabelle zu nehmen und sie lokal mit einem Tool wie pandas zu bearbeiten. Spark DataFrames machen das mit der Methode .toPandas() zum Kinderspiel. Der Aufruf dieser Methode für einen Spark DataFrame gibt den entsprechenden pandas DataFrame zurück. So einfach ist das!

Dieses Mal zählt die Abfrage die Anzahl der Flüge zu jedem Flughafen von SEA und PDX.

Vergiss nicht, dass es bereits eine SparkSession namens spark in deinem Arbeitsbereich gibt!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Führe die Abfrage mit der Methode .sql() aus. Speichere das Ergebnis in flight_counts.
  • Verwende die Methode .toPandas() auf flight_counts, um einen pandas DataFrame namens pd_counts zu erstellen.
  • Gib .head() von pd_counts auf der Konsole aus.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)
Bearbeiten und Ausführen von Code