Einen Spark DataFrame pandafizieren
Angenommen, du hast eine Abfrage über deinen riesigen Datensatz laufen lassen und ihn auf eine überschaubare Größe reduziert.
Manchmal ist es sinnvoll, diese Tabelle zu nehmen und sie lokal mit einem Tool wie pandas zu bearbeiten. Spark DataFrames machen das mit der Methode .toPandas() zum Kinderspiel. Der Aufruf dieser Methode für einen Spark DataFrame gibt den entsprechenden pandas DataFrame zurück. So einfach ist das!
Dieses Mal zählt die Abfrage die Anzahl der Flüge zu jedem Flughafen von SEA und PDX.
Vergiss nicht, dass es bereits eine SparkSession namens spark in deinem Arbeitsbereich gibt!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Führe die Abfrage mit der Methode
.sql()aus. Speichere das Ergebnis inflight_counts. - Verwende die Methode
.toPandas()aufflight_counts, um einenpandasDataFrame namenspd_countszu erstellen. - Gib
.head()vonpd_countsauf der Konsole aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)