1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu trong R

Connected

Bài tập

Cắt gọn chuỗi

Trong bài tập trước, bạn đã xác định đúng kiểu dữ liệu và chuyển user_birth_year sang kiểu phù hợp, nhờ đó trích xuất được các thống kê đếm mang lại nhiều hiểu biết hơn về bộ dữ liệu.

Một vấn đề dữ liệu bẩn phổ biến khác là các ký tự thừa như dấu phần trăm hoặc dấu chấm trong số, khiến chúng bị đọc thành character. Để có thể tính toán với các con số này, cần loại bỏ phần thừa và chuyển chúng từ character sang numeric. Trong bài này, bạn sẽ chuyển cột duration từ character sang numeric, nhưng trước đó cần loại bỏ từ "minutes" khỏi mỗi giá trị.

dplyr, assertive và stringr đã được nạp và bike_share_rides đã sẵn sàng.

Hướng dẫn

100 XP
  • Dùng str_remove() để loại bỏ "minutes" khỏi cột duration của bike_share_rides. Thêm kết quả thành một cột mới tên là duration_trimmed.
  • Chuyển cột duration_trimmed sang kiểu số (numeric) và thêm thành cột mới tên duration_mins.
  • Xem nhanh bike_share_rides và khẳng định rằng cột duration_mins có kiểu numeric.
  • Tính giá trị trung bình của duration_mins.