1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行数据清洗

Connected

道练习

通过连接校验行

另一种过滤数据的方法是通过连接来移除无效记录。您需要根据名为 valid_folders_df 的给定 DataFrame 来验证文件夹名称是否符合预期。DataFrame split_df 与您上一次处理时相同,包含一组拆分后的列。

spark 对象可用,且已将 pyspark.sql.functions 以 F 导入。

说明

100 XP
  • 将 valid_folders_df DataFrame 上的 _c0 列重命名为 folder。
  • 统计 split_df 的行数。
  • 按文件夹名称连接两个 DataFrame,并将结果 DataFrame 命名为 joined_df。请确保对更小的 DataFrame 使用广播。
  • 查看连接后剩余的行数并进行比较。