1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Pobieranie danych z RDD

W tym ćwiczeniu będziesz pracować zarówno z RDD, jak i DataFrames w PySpark. Celem jest grupowanie danych i wykonywanie agregacji przy użyciu operacji na RDD oraz metod DataFrame.

Wczytasz plik CSV z danymi o wynagrodzeniach pracowników do PySpark jako RDD. Następnie pogrupujesz dane według poziomu doświadczenia i obliczysz maksymalne wynagrodzenie dla każdego poziomu na podstawie DataFrame. Dzięki temu zobaczysz, jakie są względne zalety obu formatów danych.

Zbiór danych dotyczy wynagrodzeń Data Scientist – śledzenie trendów rynkowych może okazać się bardzo przydatne! Dane zostały już za ciebie wczytane i znormalizowane. Pamiętaj, że w twoim obszarze roboczym istnieje już SparkSession o nazwie spark!

Instrukcje

100 XP
  • Utwórz RDD z DataFrame.
  • Pobierz i wyświetl wyniki RDD oraz DataFrame.
  • Pogrupuj dane według "experience_level" i oblicz maksymalne wynagrodzenie dla każdego poziomu.