1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to PySpark

Connected

cvičení

Načtení CSV souboru a provádění agregací

Máš k dispozici tabulku platů datových vědců ze společností různých velikostí – od malých po velké. Chceš zjistit, zda existuje výrazný rozdíl mezi průměrnými platy v závislosti na velikosti firmy.

Nezapomeň, že v tvém pracovním prostředí je už připravená SparkSession s názvem spark!

Pokyny

100 XP
  • Načti CSV soubor jako DataFrame a nech Spark automaticky odvodit schéma.
  • Vrať počet řádků v DataFrame.
  • Seskup data podle sloupce company_size a vypočítej průměrný plat ze sloupce salary_in_usd.