1. Learn
  2. /
  3. 课程
  4. /
  5. Wprowadzenie do inżynierii danych

Connected

道练习

Groupby w PySpark

Wiesz już, jak korzystać z frameworka dask i jego abstrakcji DataFrame do wykonywania obliczeń. Jednak, jak pokazano w materiale wideo, w świecie big data Spark jest prawdopodobnie popularniejszym wyborem do przetwarzania danych.

W tym ćwiczeniu użyjesz pakietu PySpark do obsługi Spark DataFrame. Dane są takie same jak w poprzednich ćwiczeniach: uczestnicy wydarzeń olimpijskich w latach 1896–2016.

Spark DataFrame o nazwie athlete_events_spark jest dostępny w twoim środowisku roboczym.

Metody, których użyjesz w tym ćwiczeniu, to:

  • .printSchema(): wyświetla schemat Spark DataFrame.
  • .groupBy(): grupowanie na potrzeby agregacji.
  • .mean(): oblicza średnią dla każdej grupy.
  • .show(): wyświetla wyniki.

说明

100 XP
  • Sprawdź typ obiektu athlete_events_spark.
  • Sprawdź schemat obiektu athlete_events_spark.
  • Wyświetl średni wiek olimpijczyków pogrupowany według roku. Zwróć uwagę, że Spark jeszcze niczego nie obliczył. Takie podejście nazywamy leniwym wartościowaniem (ang. lazy evaluation).
  • Weź poprzedni wynik i wywołaj na nim .show(), aby obliczyć średni wiek.