1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Grupowanie i agregowanie I

Agregowanie staje się naprawdę potężnym narzędziem, gdy połączysz je z grupowaniem. PySpark udostępnia w tym celu specjalną klasę dla zgrupowanych ramek danych: pyspark.sql.GroupedData, którą widziałeś w dwóch poprzednich ćwiczeniach.

Wiesz już, jak utworzyć zgrupowaną ramkę danych, wywołując metodę .groupBy() na ramce danych bez żadnych argumentów.

Teraz zobaczysz, że przekazując do metody .groupBy() nazwę jednej lub więcej kolumn, metody agregujące działają tak samo jak instrukcja GROUP BY w zapytaniu SQL!

Pamiętaj, że w środowisku pracy masz już dostęp do sesji SparkSession o nazwie spark oraz do ramki danych Spark o nazwie flights.

Instrukcje

100 XP
  • Utwórz ramkę danych o nazwie by_plane, zgrupowaną według kolumny tailnum.
  • Użyj metody .count() bez argumentów, aby policzyć, ile lotów wykonał każdy samolot.
  • Utwórz ramkę danych o nazwie by_origin, zgrupowaną według kolumny origin.
  • Oblicz .avg() kolumny air_time, aby znaleźć średni czas trwania lotów z PDX i SEA.