1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Exercise

Phần trăm pixel thuộc về chó

Nhiệm vụ cuối cùng khi phân tích dữ liệu chú thích về chó là xác định phần trăm pixel trong mỗi ảnh thuộc về chó (một hoặc nhiều con). Bạn sẽ cần dùng các kỹ thuật đã học trong khóa này để tính toán thông tin đó và thêm vào dưới dạng các cột phục vụ phân tích sau này.

Để tính phần trăm pixel, trước hết hãy tính tổng số pixel đại diện cho mỗi con chó rồi cộng chúng lại cho cả ảnh. Bạn có thể tính hộp bao (bounding box) bằng công thức:

(Xend - Xstart) * (Yend - Ystart)

LƯU Ý: Trong trường hợp này bạn có thể bỏ qua khả năng các hộp bao chồng lấp nhau.

Với phần trăm, hãy lấy tổng số pixel "dog" chia cho tổng kích thước của ảnh, rồi nhân với 100.
DataFrame joined_df vẫn giống như lần bạn dùng gần nhất. pyspark.sql.functions được đặt bí danh là F.

Instrukcje

100 XP
  • Định nghĩa một hàm Python nhận vào danh sách các tuple (các đối tượng chó) và tính tổng số pixel "dog" cho mỗi ảnh.
  • Tạo một UDF từ hàm này và dùng nó để tạo cột mới tên 'dog_pixels' trên DataFrame.
  • Tạo thêm cột 'dog_percent', biểu diễn phần trăm 'dog_pixels' trong ảnh. Đảm bảo giá trị nằm trong khoảng 0–100%. Chỉ dùng tên chuỗi của cột (ví dụ, "columnname" thay vì df.columnname).
  • Hiển thị 10 hàng đầu tiên có hơn 60% 'dog_pixels' trong ảnh. Hãy dùng chuỗi kiểu SQL cho điều kiện này (ví dụ, 'columnname > ____').