1. Learn
  2. /
  3. 课程
  4. /
  5. PySpark 入门

Connected

道练习

收集 RDD

在本练习中,您将同时使用 PySpark 中的 RDD 和 DataFrame。目标是对数据进行分组,并分别用 RDD 操作和 DataFrame 方法执行聚合。

您将把一个包含员工薪资数据的 CSV 文件以 RDD 的形式加载到 PySpark 中。随后,您将按经验级别对数据进行分组,并在 DataFrame 中计算每个经验级别的最高薪资。通过对比,您将看到这两种数据结构各自的优势。

本练习所用数据集与 Data Scientist 薪资有关,洞察市场趋势对您很有帮助!我们已为您完成数据加载与标准化!请记住,工作区中已经有一个名为 spark 的 SparkSession 可供使用!

说明

100 XP
  • 从一个 DataFrame 创建 RDD。
  • 收集并显示 RDD 和 DataFrame 的结果。
  • 按 "experience_level" 分组,并计算每组的最大薪资。