1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với PySpark

Connected

Bài tập

Loại bỏ các dòng chú thích

Sếp của bạn muốn bạn thực hiện một bước phân tích cú pháp phức tạp trên một bộ dữ liệu mới. Dữ liệu này là thông tin chú giải cho bộ ImageNet, nhưng tập trung riêng vào các giống chó và việc nhận diện chúng trong ảnh. Trước khi có thể phân tích, bạn cần loại bỏ một số thành phần dữ liệu không hợp lệ/không chính xác. Vì chưa rõ schema tổng thể của tài liệu, bạn muốn nhập các hàng vào một cột duy nhất để có thể phân tích nhanh.

Bắt đầu bằng cách loại bỏ tất cả các dòng chú thích trong bộ dữ liệu.

Ngữ cảnh spark và tệp CSV gốc (annotations.csv.gz) đã sẵn sàng để bạn sử dụng. Hàm col cũng có thể dùng được.

Hướng dẫn

100 XP
  • Nạp tệp annotations.csv.gz vào một DataFrame và đếm số hàng. Chỉ định ký tự phân tách là |.
  • Truy vấn dữ liệu để lấy số hàng bắt đầu bằng #.
  • Nạp lại tệp vào một DataFrame mới, nhưng chỉ định ký tự chú thích trong options để loại bỏ mọi dòng chú thích.
  • Đếm DataFrame mới và kiểm tra xem chênh lệch có đúng như kỳ vọng hay không.