1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 PySpark 进行数据清洗

Connected

道练习

狗信息解析

您已经对初始数据集进行了大量清理,但现在需要更深入地分析数据。关于图像中出现的狗的类型以及图像的一些细节,出现了几个问题。您意识到,要回答这些问题,需要将数据处理为特定的数据类型。在使用之前,您需要创建一个用于表示狗详细信息的架构/类型。

joined_df DataFrame 与您上一次定义时相同,并且已经导入了 pyspark.sql.types。

说明

100 XP
  • 从 DataFrame 中选择表示狗详细信息的列,并显示前 10 行且不截断。
  • 像之前一样创建一个新的架构,使用 breed、start_x、start_y、end_x 和 end_y 作为名称。请确保为架构中每个字段指定正确的数据类型(所有数值字段都是整数)。