1. Learn
  2. /
  3. Courses
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Exercise

Sửa lỗi không nhất quán

Bây giờ khi bạn đã xác định dest_size có sự không nhất quán về khoảng trắng và cleanliness có sự không nhất quán về viết hoa, hãy dùng các công cụ mới để sửa các giá trị không nhất quán trong sfo_survey thay vì xóa toàn bộ điểm dữ liệu. Việc xóa có thể gây thiên lệch cho tập dữ liệu nếu hơn 5% điểm dữ liệu phải bị loại bỏ.

dplyr và stringr đã được nạp và sfo_survey đã sẵn sàng.

Instructions

100 XP
  • Thêm một cột vào sfo_survey tên là dest_size_trimmed chứa các giá trị của cột dest_size sau khi đã loại bỏ toàn bộ khoảng trắng ở đầu và cuối.
  • Thêm một cột khác tên là cleanliness_lower chứa các giá trị của cột cleanliness đã được chuyển hết sang chữ thường.
  • Đếm số lần xuất hiện của mỗi hạng mục trong dest_size_trimmed.
  • Đếm số lần xuất hiện của mỗi hạng mục trong cleanliness_lower.