1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do PySpark

Connected

ćwiczenie

Wczytywanie pliku CSV i wykonywanie agregacji

Masz arkusz kalkulacyjny z danymi o wynagrodzeniach Data Scientistów z firm różnej wielkości – od małych po duże. Chcesz sprawdzić, czy średnie wynagrodzenia różnią się znacząco w zależności od rozmiaru firmy.

Pamiętaj – w twoim środowisku pracy dostępna jest już sesja SparkSession o nazwie spark!

Instrukcje

100 XP
  • Wczytaj plik CSV jako DataFrame i pozwól Sparkowi automatycznie wywnioskować schemat.
  • Zwróć liczbę wierszy w zbiorze danych.
  • Pogrupuj dane według kolumny company_size i oblicz średnie wynagrodzenie na podstawie kolumny salary_in_usd.