1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introduction to PySpark

Connected

exercițiu

Práce s RDD pomocí collect()

V tomto cvičení budeš pracovat s RDD i DataFrames v PySparku. Cílem je seskupit data a provést agregaci pomocí operací s RDD i metod DataFrames.

Načteš CSV soubor s daty o platech zaměstnanců do PySparku jako RDD. Poté seskupíš data podle úrovně zkušeností a vypočítáš maximální plat pro každou úroveň z DataFramu. Díky tomu uvidíš, v čem každý z těchto formátů vyniká.

Dataset obsahuje data o platech datových vědců – sledování trendů na trhu práce se ti může hodit! Data jsme za tebe už načetli a normalizovali. Nezapomeň, že v tvém workspace je k dispozici SparkSession pojmenovaná spark!

Instrucțiuni

100 XP
  • Vytvoř RDD z DataFramu.
  • Načti a zobraz výsledky z RDD i DataFramu.
  • Seskup data podle "experience_level" a vypočítej maximální plat pro každou úroveň.