1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tiền xử lý cho Machine Learning bằng Python

Connected

Bài tập

Khám phá vector văn bản, phần 2

Sử dụng hàm return_weights() bạn đã viết ở bài trước, giờ bạn sẽ trích xuất các từ có trọng số cao nhất từ mỗi tài liệu trong vector văn bản, trả về một danh sách các chỉ số từ, và dùng danh sách đó để lọc vector văn bản chỉ còn những từ hàng đầu này.

Hướng dẫn

100 XP
  • Gọi return_weights() để trả về các từ có trọng số cao nhất cho tài liệu đó.
  • Gọi set() trên filter_list được trả về để loại bỏ các số trùng lặp.
  • Gọi words_to_filter, truyền các tham số sau: vocab cho tham số vocab, tfidf_vec.vocabulary_ cho tham số original_vocab, text_tfidf cho tham số vector, và 3 để lấy top_n 3 từ có trọng số cao từ mỗi tài liệu.
  • Cuối cùng, truyền tập filtered_words vào list để dùng làm bộ lọc cho vector văn bản.