1. Learn
  2. /
  3. Курси
  4. /
  5. Вступ до PySpark

Connected

вправа

Збирання RDD

У цій вправі ви попрацюєте і з RDD, і з датафреймами в PySpark. Мета — згрупувати дані та виконати агрегацію як за допомогою операцій RDD, так і методів DataFrame.

Ви завантажите CSV‑файл із даними про зарплати співробітників у PySpark як RDD. Потім згрупуєте за рівнем досвіду та обчислите максимальну зарплату для кожного рівня досвіду з датафрейму. Так ви побачите відносні переваги обох форматів даних.

Набір даних стосується зарплат Data Scientist, тож знаходити ринкові тренди — у ваших інтересах! Ми вже завантажили й нормалізували дані для вас. Пам'ятайте, у вашому робочому середовищі вже є SparkSession під назвою spark!

Інструкції

100 XP
  • Створіть RDD з датафрейму.
  • Зберіть і відобразіть результати для RDD і DataFrame.
  • Згрупуйте за "experience_level" і обчисліть максимальну зарплату для кожного рівня.