1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Agregowanie II

Aby zapoznać cię z kolejnymi wbudowanymi metodami agregacji, przygotowaliśmy kilka dodatkowych ćwiczeń dotyczących tabeli flights!

Pamiętaj, że w twoim środowisku dostępna jest już sesja SparkSession o nazwie spark oraz DataFrame Spark o nazwie flights.

Instrukcje

100 XP
  • Użyj metody .avg(), aby obliczyć średni czas lotu dla lotów linii Delta Airlines (gdzie kolumna carrier ma wartość "DL"), które wystartowały z SEA. Miejsce odlotu jest przechowywane w kolumnie origin. Wyświetl wynik za pomocą show().
  • Użyj metody .sum(), aby obliczyć łączną liczbę godzin spędzonych w powietrzu przez wszystkie samoloty w tym zbiorze danych. W tym celu utwórz kolumnę duration_hrs na podstawie kolumny air_time. Wyświetl wynik za pomocą show().