1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Phát hiện gian lận với Python

Connected

Bài tập

Tạo dictionary và corpus

Để chạy mô hình chủ đề LDA, trước hết bạn cần định nghĩa dictionary và corpus, vì chúng sẽ được đưa vào mô hình. Bạn sẽ tiếp tục làm việc với dữ liệu văn bản đã được làm sạch ở các bài trước. Nghĩa là text_clean đã sẵn sàng để bạn tiếp tục sử dụng, và bạn sẽ dùng nó để tạo dictionary và corpus.

Bài tập này có thể chạy lâu hơn bình thường một chút.

Hướng dẫn

100 XP
  • Import gói gensim và import riêng phần corpora từ gensim.
  • Định nghĩa dictionary bằng cách chạy hàm phù hợp trên dữ liệu đã làm sạch text_clean.
  • Định nghĩa corpus bằng cách chạy doc2bow trên từng đoạn văn bản trong text_clean.
  • In kết quả để xem dictionary và corpus trông như thế nào.