1. Learn
  2. /
  3. Курси
  4. /
  5. Вступ до PySpark

Connected

вправа

Зчитування CSV і виконання агрегацій

У вас є електронна таблиця з інформацією про зарплати Data Scientist у компаніях різного розміру — від малих до великих. Ви хочете перевірити, чи є суттєва різниця між середніми зарплатами залежно від розміру компанії.

Пам'ятайте: у вашому робочому середовищі вже є SparkSession з назвою spark!

Інструкції

100 XP
  • Завантажте файл CSV як датафрейм і визначте схему автоматично.
  • Поверніть кількість рядків.
  • Згрупуйте за стовпцем company_size і обчисліть середню зарплату за salary_in_usd.