Groupby w PySpark

Wiesz już, jak korzystać z frameworka dask i jego abstrakcji DataFrame do wykonywania obliczeń. Jednak, jak pokazano w materiale wideo, w świecie big data Spark jest prawdopodobnie popularniejszym wyborem do przetwarzania danych.

W tym ćwiczeniu użyjesz pakietu PySpark do obsługi Spark DataFrame. Dane są takie same jak w poprzednich ćwiczeniach: uczestnicy wydarzeń olimpijskich w latach 1896–2016.

Spark DataFrame o nazwie athlete_events_spark jest dostępny w twoim środowisku roboczym.

Metody, których użyjesz w tym ćwiczeniu, to:

.printSchema(): wyświetla schemat Spark DataFrame.
.groupBy(): grupowanie na potrzeby agregacji.
.mean(): oblicza średnią dla każdej grupy.
.show(): wyświetla wyniki.

Sprawdź typ obiektu athlete_events_spark.
Sprawdź schemat obiektu athlete_events_spark.
Wyświetl średni wiek olimpijczyków pogrupowany według roku. Zwróć uwagę, że Spark jeszcze niczego nie obliczył. Takie podejście nazywamy leniwym wartościowaniem (ang. lazy evaluation).
Weź poprzedni wynik i wywołaj na nim .show(), aby obliczyć średni wiek.

道练习

Groupby w PySpark

说明

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}道练习

说明

道练习