Learn

/

课程

/

使用 PySpark 进行数据清洗

Connected

道练习

检查无效行

您已经通过连接成功过滤掉了这些行，但有时您还希望检查哪些数据是无效的。无效数据可以被保存起来，以便后续处理或用于排查数据源问题。

现在，您想找出两个 DataFrame 之间的差异，并把无效的行保存下来。

spark 对象已定义，且已将 pyspark.sql.functions 以 F 导入。原始 DataFrame split_df 和连接后的 DataFrame joined_df 已按之前的状态可用。

说明

100 XP

分别计算每个 DataFrame 的行数。
创建仅包含无效行的 DataFrame。
验证新 DataFrame 的行数是否符合预期。
计算被移除的不同文件夹行数。