Maak een Pandas-versie van een Spark DataFrame
Stel, je hebt een query uitgevoerd op je enorme gegevensset en die samengevoegd tot iets wat beter behapbaar is.
Soms is het dan handig om die tabel lokaal te gebruiken met een tool als pandas. Spark DataFrames maken dat eenvoudig met de methode .toPandas(). Als je deze methode op een Spark DataFrame aanroept, krijg je het bijbehorende pandas DataFrame terug. Zo simpel is het!
Deze keer telt de query het aantal vluchten naar elk vliegveld vanaf SEA en PDX.
Onthoud dat er al een SparkSession met de naam spark in je werkruimte staat!
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Voer de query uit met de methode
.sql(). Sla het resultaat op inflight_counts. - Gebruik de methode
.toPandas()opflight_countsom eenpandasDataFrame te maken met de naampd_counts. - Print de
.head()vanpd_countsnaar de console.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"
# Run the query
flight_counts = ____
# Convert the results to a pandas DataFrame
pd_counts = ____
# Print the head of pd_counts
print(____)