1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în PySpark

Connected

exercițiu

Colectarea RDD-urilor

În acest exercițiu, vei lucra atât cu RDD-uri, cât și cu DataFrame-uri în PySpark. Scopul este să grupezi datele și să efectuezi agregări folosind atât operații pe RDD, cât și metode specifice DataFrame-urilor.

Vei încărca un fișier CSV cu date despre salariile angajaților în PySpark ca un RDD. Apoi vei grupa datele după nivelul de experiență și vei calcula salariul maxim pentru fiecare nivel de experiență dintr-un DataFrame. Astfel, vei putea observa avantajele relative ale fiecărui format de date.

Setul de date pe care îl folosești conține informații despre salariile Data Scientist-ilor – prin urmare, identificarea tendințelor din piață este în interesul tău! Am încărcat și normalizat deja datele pentru tine! Reține că în spațiul tău de lucru există deja o SparkSession numită spark!

Instrucțiuni

100 XP
  • Creează un RDD dintr-un DataFrame.
  • Colectează și afișează rezultatele RDD-ului și ale DataFrame-ului.
  • Grupează după "experience_level" și calculează salariul maxim pentru fiecare nivel.