1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Phát hiện dữ liệu văn bản không nhất quán

Bạn vừa nhận được tin là đội hỗ trợ khách hàng muốn gọi lại để hỏi thêm một số câu hỏi với những người tham gia khảo sát SFO. Tuy nhiên, hệ thống quay số tự động của tổng đài không thể phân tích tất cả số điện thoại vì chúng ở nhiều định dạng khác nhau. Sau khi kiểm tra, bạn phát hiện một số số điện thoại được viết với dấu gạch nối (-) và một số lại có dấu ngoặc đơn ((,)). Trong bài tập này, bạn sẽ xác định những số điện thoại gặp các vấn đề này để biết số nào cần chỉnh sửa.

dplyr và stringr đã được nạp, và sfo_survey đã sẵn sàng.

Hướng dẫn 1/2

undefined XP
  • 1
    • Lọc các hàng có số điện thoại chứa "-".
  • 2
    • Lọc các hàng có số điện thoại chứa "(" hoặc ")". Nhớ dùng fixed() khi tìm dấu ngoặc đơn.