1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Exercise

Liên kết tất cả lại với nhau!

Trong bài học trước, bạn đã hoàn thành phần lớn công việc để liên kết restaurants và restaurants_new. Bạn đã tạo các cặp hàng có thể trùng khớp, tìm các khớp chính xác giữa các cột cuisine_type và city, nhưng so sánh độ tương đồng chuỗi trong cột rest_name. Bạn đã lưu DataFrame chứa các điểm số vào potential_matches.

Giờ là lúc liên kết hai DataFrame. Trước tiên, bạn sẽ trích xuất tất cả chỉ mục hàng của restaurants_new trùng khớp trên các cột nêu trên từ potential_matches. Sau đó, bạn sẽ lọc restaurants_new theo các chỉ mục này, và cuối cùng nối các giá trị không trùng lặp với restaurants. Tất cả các DataFrame đều có trong môi trường của bạn, cùng với pandas đã được import là pd.

Instructions

100 XP
  • Lọc các bản ghi trong potential_matches nơi tổng theo hàng lớn hơn hoặc bằng 3 bằng phương thức .sum().
  • Trích xuất cấp chỉ mục cột thứ hai từ matches, đại diện cho chỉ mục hàng của bản ghi khớp từ restaurants_new, bằng phương thức .get_level_values().
  • Lọc restaurants_new cho các hàng không nằm trong matching_indices.
  • Nối restaurants và non_dup.