Learn

/

课程

/

使用 PySpark 进行数据清洗

Connected

道练习

通过连接校验行

另一种过滤数据的方法是通过连接来移除无效记录。您需要根据名为 valid_folders_df 的给定 DataFrame 来验证文件夹名称是否符合预期。DataFrame split_df 与您上一次处理时相同，包含一组拆分后的列。

spark 对象可用，且已将 pyspark.sql.functions 以 F 导入。

说明

100 XP

将 valid_folders_df DataFrame 上的 _c0 列重命名为 folder。
统计 split_df 的行数。
按文件夹名称连接两个 DataFrame，并将结果 DataFrame 命名为 joined_df。请确保对更小的 DataFrame 使用广播。
查看连接后剩余的行数并进行比较。