1. Learn
  2. /
  3. 课程
  4. /
  5. PySpark 入门

Connected

道练习

读取 CSV 并执行聚合

您有一份数据科学家薪资的表格,涵盖从小型到大型公司的数据。您想按公司规模分组,比较平均薪资是否存在显著差异。

请注意,您的工作区中已经有一个 SparkSession,名为 spark!

说明

100 XP
  • 将一个 CSV 文件加载为 DataFrame,并推断 schema。
  • 返回行数统计。
  • 按 company_size 列分组,并使用 salary_in_usd 计算平均薪资。