1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Ràng buộc thời lượng chuyến đi

Các giá trị nằm ngoài phạm vi có thể làm chệch kết quả phân tích, nên quan trọng là bạn phát hiện chúng sớm. Trong bài tập này, bạn sẽ xem xét kỹ hơn cột duration_min. Xe đạp không được phép sử dụng quá 24 giờ, tức 1440 phút cho mỗi lượt, nhưng một số trục trặc với xe đã dẫn đến việc ghi nhận thời điểm trả xe không chính xác.

Ở bài này, bạn sẽ thay thế dữ liệu sai bằng giới hạn phạm vi (1440 phút); tuy nhiên, bạn cũng có thể thay các giá trị này bằng NA.

dplyr, assertive, và ggplot2 đã được nạp và bike_share_rides đã sẵn sàng.

Hướng dẫn 1/2

undefined XP
    1
    2
  • Tạo biểu đồ histogram 3 khoảng (three-bin) cho cột duration_min của bike_share_rides bằng ggplot2 để xác định liệu có dữ liệu ngoài phạm vi hay không.