1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Převod Spark DataFrame na pandas

Představ si, že jsi spustil/a dotaz nad obrovským datasetem a agregoval/a ho na něco mnohem přehlednějšího.

V takových případech dává smysl vzít výslednou tabulku a pracovat s ní lokálně pomocí nástroje, jako je pandas. Spark DataFrames to usnadňují metodou .toPandas(). Zavoláním této metody na Spark DataFrame získáš odpovídající pandas DataFrame. Tak jednoduché to je!

Tento dotaz počítá, kolik letů míří z SEA a PDX na každé letiště.

Nezapomeň, že ve tvém pracovním prostředí je už připravená SparkSession s názvem spark!

Pokyny

100 XP
  • Spusť dotaz pomocí metody .sql(). Výsledek ulož do proměnné flight_counts.
  • Použij metodu .toPandas() na flight_counts a vytvoř pandas DataFrame s názvem pd_counts.
  • Vypiš do konzole výstup metody .head() proměnné pd_counts.