1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Cộng chuỗi và nối số

Trong bài trước, bạn đã xác định được category là kiểu dữ liệu đúng cho user_type và chuyển đổi nó để trích xuất các thống kê tóm tắt giúp hiểu phân phối của user_type.

Một vấn đề kiểu dữ liệu phổ biến khác là các giá trị lẽ ra là số lại được nhập vào dưới dạng chuỗi; khi đó các phép toán như cộng và nhân sẽ dẫn đến nối chuỗi thay vì cho ra kết quả số học.

Trong bài này, bạn sẽ chuyển cột chuỗi duration sang kiểu int. Trước đó, bạn cần loại bỏ "minutes" khỏi cột để đảm bảo pandas đọc được nó như số. Gói pandas đã được nhập với bí danh pd.

Hướng dẫn

100 XP
  • Dùng phương thức .strip() để loại "minutes" khỏi duration và lưu vào cột duration_trim.
  • Chuyển duration_trim sang int và lưu vào cột duration_time.
  • Viết một câu lệnh assert để kiểm tra xem kiểu dữ liệu của duration_time hiện là int.
  • In thời lượng chuyến đi trung bình.