1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行数据清洗

Connected

道练习

检查无效行

您已经通过连接成功过滤掉了这些行,但有时您还希望检查哪些数据是无效的。无效数据可以被保存起来,以便后续处理或用于排查数据源问题。

现在,您想找出两个 DataFrame 之间的差异,并把无效的行保存下来。

spark 对象已定义,且已将 pyspark.sql.functions 以 F 导入。原始 DataFrame split_df 和连接后的 DataFrame joined_df 已按之前的状态可用。

说明

100 XP
  • 分别计算每个 DataFrame 的行数。
  • 创建仅包含无效行的 DataFrame。
  • 验证新 DataFrame 的行数是否符合预期。
  • 计算被移除的不同文件夹行数。