Einen Spark DataFrame pandafizieren
Angenommen, du hast eine Abfrage über deinen riesigen Datensatz laufen lassen und ihn auf eine überschaubare Größe reduziert.
Manchmal ist es sinnvoll, diese Tabelle zu nehmen und sie lokal mit einem Tool wie pandas
zu bearbeiten. Spark DataFrames machen das mit der Methode .toPandas()
zum Kinderspiel. Der Aufruf dieser Methode für einen Spark DataFrame gibt den entsprechenden pandas
DataFrame zurück. So einfach ist das!
Dieses Mal zählt die Abfrage die Anzahl der Flüge zu jedem Flughafen von SEA und PDX.
Vergiss nicht, dass es bereits eine SparkSession
namens spark
in deinem Arbeitsbereich gibt!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Führe die Abfrage mit der Methode
.sql()
aus. Speichere das Ergebnis inflight_counts
. - Verwende die Methode
.toPandas()
aufflight_counts
, um einenpandas
DataFrame namenspd_counts
zu erstellen. - Gib
.head()
vonpd_counts
auf der Konsole aus.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)