1. Learn
  2. /
  3. Cursuri
  4. /
  5. Introducere în PySpark

Connected

exercițiu

Citirea unui fișier CSV și realizarea de agregări

Ai un tabel cu salariile unor specialiști în date din companii de diferite dimensiuni, de la mici la mari. Vrei să verifici dacă există diferențe semnificative între salariile medii grupate după dimensiunea companiei.

Reține că în workspace-ul tău există deja o SparkSession numită spark!

Instrucțiuni

100 XP
  • Încarcă un fișier CSV ca DataFrame și inferează schema.
  • Returnează numărul de rânduri.
  • Grupează după coloana company_size și calculează salariul mediu folosind salary_in_usd.