1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Chọn các đặc trưng liên quan

Trong bài tập này, bạn sẽ xác định các cột dư thừa trong tập dữ liệu volunteer, và thực hiện chọn đặc trưng để trả về một DataFrame chỉ gồm các đặc trưng phù hợp.

Ví dụ, nếu bạn khám phá tập dữ liệu volunteer trong console, bạn sẽ thấy ba đặc trưng liên quan đến vị trí: locality, region, và postalcode. Chúng chứa thông tin liên quan, nên hợp lý là chỉ giữ lại một trong số đó.

Hãy dành thời gian xem xét các đặc trưng của volunteer trong console và cố gắng xác định các đặc trưng dư thừa.

Hướng dẫn

100 XP
  • Tạo một danh sách tên cột dư thừa và lưu vào biến to_drop:
    • Trong tất cả các đặc trưng liên quan đến vị trí, chỉ giữ postalcode.
    • Các đặc trưng đã trải qua bước kỹ thuật đặc trưng cũng là dư thừa.
  • Loại bỏ các cột trong danh sách to_drop khỏi tập dữ liệu.
  • In .head() của volunteer_subset để xem các cột đã chọn.