1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do Spark SQL w Pythonie

Connected

ćwiczenie

Agregacja krok po kroku

Wybór między notacją kropkową a SQL to kwestia osobistych preferencji. Jednak, jak pokazano w ćwiczeniu wideo, są sytuacje, w których SQL jest prostszy. Jak również pokazano w lekcji wideo, zdarzają się przypadki, gdy notacja kropkowa daje nieoczekiwany wynik – na przykład gdy druga agregacja na kolumnie nadpisuje wynik poprzedniej agregacji na tej samej kolumnie. Jak wspomniano w filmie, podstawowa składnia agg w PySpark pozwala wykonać tylko jedną agregację na każdej kolumnie naraz.

Poniższe ćwiczenia obliczają godzinę pierwszego odjazdu dla każdej linii pociągów.

Dwa pierwsze zapytania dają identyczne wyniki. Jednak dwa kolejne – nie. Czy potrafisz określić, dlaczego?

Instrukcje

100 XP
  • Uzupełnij puste miejsca, aby pierwsza para poleceń wyświetlała identyczny wynik.
  • Czwarty wynik, nazwany result, to naiwna próba odtworzenia poprzedniej linii. Jednak daje on nieoczekiwanie inny rezultat. Jak? Uzupełnij puste miejsce, aby wyświetlić nazwę drugiej kolumny zmiennej result.