1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Tạo và truy vấn một corpus với gensim

Đến lúc áp dụng các phương pháp bạn vừa học để tạo dictionary và corpus đầu tiên với gensim!

Bạn sẽ dùng các cấu trúc dữ liệu này để khám phá xu hướng từ vựng và những chủ đề thú vị tiềm năng trong bộ tài liệu. Để bắt đầu, chúng tôi đã nhập thêm một số bài viết Wikipedia còn khá lộn xộn, đã được tiền xử lý bằng cách chuyển hết về chữ thường, tách từ (tokenize) và loại bỏ stop words cùng dấu câu. Chúng được lưu thành một danh sách các token theo tài liệu gọi là articles. Bạn sẽ cần làm chút tiền xử lý nhẹ rồi tạo dictionary và corpus bằng gensim.

Hướng dẫn

100 XP
  • Import Dictionary từ gensim.corpora.dictionary.
  • Khởi tạo một Dictionary của gensim với các token trong articles.
  • Lấy id cho "computer" từ dictionary. Để làm điều này, dùng thuộc tính .token2id để truy xuất id từ văn bản, rồi nối tiếp .get() để lấy token theo id. Truyền "computer" làm đối số cho .get().
  • Dùng một list comprehension lặp qua articles để tạo MmCorpus của gensim từ dictionary.
    • Trong biểu thức đầu ra, dùng phương thức .doc2bow() trên dictionary với article làm đối số.
  • In 10 id từ đầu tiên cùng số lần xuất hiện của chúng từ tài liệu thứ năm. Phần này đã được làm sẵn, hãy nhấn "Submit Answer" để xem kết quả!