Khám phá vector văn bản, phần 1

Hãy mở rộng phương pháp khám phá vector văn bản vừa học, sử dụng các vector tf/idf của cột title trong tập dữ liệu volunteer. Ở phần đầu của bài khám phá vector văn bản này, chúng ta sẽ bổ sung vào hàm đã học trên các slide. Hàm sẽ trả về một danh sách số. Ở bài tập tiếp theo, bạn sẽ viết một hàm khác để thu thập các từ xuất hiện nhiều nhất trên tất cả tài liệu, trích xuất chúng, rồi dùng danh sách đó để lọc vector text_tfidf.

Thêm các tham số original_vocab (ứng với tfidf_vec.vocabulary_) và top_n.
Gọi pd.Series() trên đối tượng dictionary đã zip. Cách này giúp bạn thao tác dễ hơn.
Dùng hàm .sort_values() để sắp xếp Series và cắt phần index đến top_n từ.
Gọi hàm, đặt original_vocab=tfidf_vec.vocabulary_, đặt vector_index=8 để lấy hàng thứ 9, và đặt top_n=3 để lấy 3 từ có trọng số cao nhất.

Bài tập

Khám phá vector văn bản, phần 1

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập