1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Tìm sự nhất quán

Trong bài tập này và suốt chương, bạn sẽ làm việc với DataFrame airlines chứa các phản hồi khảo sát về Sân bay San Francisco từ khách hàng của các hãng hàng không.

DataFrame này gồm siêu dữ liệu chuyến bay như hãng bay, điểm đến, thời gian chờ, cũng như câu trả lời cho các câu hỏi chính về mức độ sạch sẽ, an toàn và hài lòng. Một DataFrame khác tên là categories đã được tạo, chứa tất cả các giá trị hợp lệ cho các cột khảo sát.

Ở bài này, bạn sẽ dùng cả hai DataFrame để tìm các câu trả lời khảo sát có giá trị không nhất quán và loại bỏ chúng, tương ứng với việc thực hiện outer và inner join trên hai DataFrame như trong video. Gói pandas đã được nhập là pd, và các DataFrame airlines và categories đã có sẵn trong môi trường của bạn.

Hướng dẫn 1/4

undefined XP
    1
    2
    3
    4
  • In DataFrame categories và xem kỹ tất cả các hạng mục hợp lệ của các cột khảo sát.
  • In các giá trị duy nhất của các cột khảo sát trong airlines bằng phương thức .unique().