1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Chọn bộ dữ liệu tối ưu

Bây giờ hãy loại bỏ một số đặc trưng không cần thiết trong bộ dữ liệu ufo. Vì cột country đã được mã hóa thành country_enc, bạn có thể giữ cột này và loại bỏ các cột khác liên quan đến vị trí: city, country, lat, long, và state.

Bạn đã tạo thêm các cột month và year, nên không còn cần date hoặc recorded nữa. Bạn cũng đã chuẩn hóa cột seconds thành seconds_log, vì vậy có thể bỏ seconds và minutes.

Bạn đã vector hóa desc, nên có thể xóa cột này. Tạm thời bạn sẽ giữ type.

Bạn cũng có thể bỏ cột length_of_time, vốn không cần thiết sau khi đã trích xuất minutes.

Hướng dẫn

100 XP
  • Tạo danh sách tất cả các cột cần loại bỏ, to_drop.
  • Loại bỏ các cột này khỏi ufo.
  • Dùng hàm words_to_filter() mà bạn đã tạo trước đó; truyền vào vocab, vec.vocabulary_, desc_tfidf, và giữ 4 từ hàng đầu làm tham số cuối cùng.