1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Chinh phục cuộc thi Kaggle bằng Python

Connected

Bài tập

Đồ thị EDA I

Sau khi đã tạo một vài thống kê cơ bản, giờ là lúc bạn đưa ra và kiểm chứng một số giả thuyết về mối phụ thuộc trong dữ liệu. Nhắc lại, DataFrame train từ cuộc thi taxi đã có sẵn trong không gian làm việc của bạn.

Bắt đầu bằng cách vẽ một biểu đồ scatter thể hiện mối quan hệ giữa số tiền cước (fare) và quãng đường chuyến đi. Trực giác cho thấy chuyến đi càng dài thì giá càng cao.

Để tính khoảng cách theo kilômét giữa hai tọa độ địa lý, bạn sẽ dùng Haversine distance. Phép tính này có sẵn thông qua hàm haversine_distance() đã được định nghĩa cho bạn. Hàm này nhận DataFrame train làm đầu vào.

Hướng dẫn

100 XP
  • Tạo biến mới "distance_km" là Haversine distance giữa điểm đón (pickup) và điểm trả (dropoff).
  • Vẽ biểu đồ scatter với "fare_amount" trên trục x và "distance_km" trên trục y. Để vẽ biểu đồ scatter, dùng phương thức scatter() của matplotlib.
  • Giới hạn quãng đường chuyến đi trong khoảng từ 0 đến 50 kilômét để tránh vẽ các ngoại lệ (outlier).