1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Phân tích dữ liệu chó

Bạn đã dọn dẹp khá nhiều trên bộ dữ liệu ban đầu, nhưng giờ cần phân tích sâu hơn. Có một số câu hỏi nảy sinh về loại chó xuất hiện trong ảnh và một vài chi tiết liên quan đến ảnh. Bạn nhận ra rằng để trả lời những câu hỏi này, bạn cần xử lý dữ liệu về một kiểu cụ thể. Trước khi có thể sử dụng, bạn sẽ cần tạo một schema/kiểu dữ liệu để biểu diễn chi tiết về chó.

DataFrame joined_df vẫn như bạn đã định nghĩa lần cuối, và các pyspark.sql.types đã được import đầy đủ.

Hướng dẫn

100 XP
  • Chọn cột biểu diễn chi tiết về chó từ DataFrame và hiển thị 10 hàng đầu tiên không bị cắt ngắn.
  • Tạo một schema mới như trước đây, dùng các tên breed, start_x, start_y, end_x và end_y. Hãy bảo đảm chỉ định đúng kiểu dữ liệu cho từng trường trong schema (mọi giá trị số đều là số nguyên).