1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Làm sạch dữ liệu với Python

Connected

Bài tập

Dữ liệu số hay ... ?

Trong bài tập này, và xuyên suốt chương, bạn sẽ làm việc với dữ liệu đi xe đạp chia sẻ ở San Francisco có tên ride_sharing. Bộ dữ liệu chứa thông tin về trạm bắt đầu và kết thúc, thời lượng chuyến đi, cùng một số thông tin người dùng của dịch vụ chia sẻ xe đạp.

Cột user_type cho biết người dùng có đang đi miễn phí hay không và nhận các giá trị sau:

  • 1 cho người đi miễn phí.
  • 2 cho trả tiền theo mỗi chuyến.
  • 3 cho thuê bao theo tháng.

Trong bài này, bạn sẽ in thông tin của ride_sharing bằng .info() và xem trực tiếp ví dụ về cách một kiểu dữ liệu không đúng có thể làm sai lệch phân tích bộ dữ liệu. Gói pandas đã được nhập là pd.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • In thông tin của ride_sharing.
  • Dùng .describe() để in thống kê tóm tắt của cột user_type từ ride_sharing.