1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Sửa lỗi chính tả bằng khoảng cách chuỗi

Trong chương này, một trong các tập dữ liệu bạn sẽ làm việc, zagat, là danh sách nhà hàng ở New York, Los Angeles, Atlanta, San Francisco và Las Vegas. Dữ liệu đến từ Zagat, một công ty tổng hợp đánh giá nhà hàng, và bao gồm tên nhà hàng, địa chỉ, số điện thoại, cùng các thông tin khác về nhà hàng.

Cột city chứa tên thành phố nơi nhà hàng tọa lạc. Tuy nhiên, có khá nhiều lỗi chính tả rải rác trong cột này. Nhiệm vụ của bạn là ánh xạ từng giá trị city về một trong năm tên thành phố được viết đúng chính tả có trong data frame cities.

dplyr và fuzzyjoin đã được nạp, và zagat cùng cities đều sẵn có.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Đếm số lần xuất hiện của từng biến thể tên city trong zagat.