1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Konwersja Spark DataFrame do pandas

Załóżmy, że wykonałeś(-aś) zapytanie na ogromnym zbiorze danych i zagregowałeś(-aś) wyniki do bardziej przystępnej postaci.

Czasem wygodnie jest następnie pracować z taką tabelą lokalnie – na przykład za pomocą biblioteki pandas. Spark DataFrame umożliwia to w prosty sposób dzięki metodzie .toPandas(). Wywołanie tej metody na Spark DataFrame zwraca odpowiadający mu pandas DataFrame. To wszystko!

W tym ćwiczeniu zapytanie zlicza liczbę lotów do każdego lotniska z SEA i PDX.

Pamiętaj, że w twoim środowisku pracy jest już dostępna SparkSession o nazwie spark!

Instrukcje

100 XP
  • Uruchom zapytanie za pomocą metody .sql(). Zapisz wynik w zmiennej flight_counts.
  • Użyj metody .toPandas() na flight_counts, aby utworzyć pandas DataFrame o nazwie pd_counts.
  • Wyświetl w konsoli metodę .head() na obiekcie pd_counts.