1. Učit se
  2. /
  3. Kurzy
  4. /
  5. 使用 PySpark 进行数据清洗

Connected

cvičení

狗像素百分比

解析狗的标注数据的最后一步,是确定每张图像中表示狗(或多只狗)的像素所占百分比。您需要运用本课程中学到的各种技巧来计算这些信息,并将其添加为列,便于后续分析。

若要计算像素百分比,先计算每只狗所代表的像素总数,然后在图像级别求和。您可以使用以下公式计算边界框:

(Xend - Xstart) * (Yend - Ystart)

注意:在本题中,您可以忽略边界框重叠的可能性。

对于百分比,计算总的"dog"像素数除以图像的总大小,再乘以 100。 joined_df DataFrame 与您上次使用时一致。pyspark.sql.functions 已起别名为 F。

Pokyny

100 XP
  • 定义一个 Python 函数,接收一个元组列表(狗对象),计算每张图像中的"dog"像素总数。
  • 基于该函数创建一个 UDF,并用它在 DataFrame 上创建名为 'dog_pixels' 的新列。
  • 再创建一列 'dog_percent',表示图像中 'dog_pixels' 的百分比。请确保其范围在 0–100% 之间。仅使用列名字符串(即使用 "columnname" 而不是 df.columnname)。
  • 显示图像中 'dog_pixels' 超过 60% 的前 10 行。对此请使用 SQL 风格的字符串(即 'columnname > ____')。