1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Xây dựng Counter với bag-of-words

Trong bài tập này, bạn sẽ xây dựng bộ đếm bag-of-words đầu tiên (trong khóa học này) bằng cách dùng một bài viết trên Wikipedia, đã được nạp sẵn thành article. Hãy thử làm bag-of-words mà không cần xem toàn bộ văn bản bài viết và đoán xem chủ đề là gì! Nếu muốn xem trước tiêu đề ở cuối, chúng tôi đã cung cấp nó trong article_title. Lưu ý rằng văn bản bài viết này hầu như chưa được tiền xử lý nhiều từ mục nhập gốc trong cơ sở dữ liệu Wikipedia.

word_tokenize đã được import sẵn cho bạn.

Hướng dẫn

100 XP
  • Import Counter từ collections.
  • Dùng word_tokenize() để tách bài viết thành các token.
  • Dùng một list comprehension với biến lặp t để chuyển tất cả token thành chữ thường. Phương thức .lower() chuyển văn bản thành chữ thường.
  • Tạo một bộ đếm bag-of-words tên bow_simple bằng cách dùng Counter() với đối số là lower_tokens.
  • Dùng phương thức .most_common() của bow_simple để in ra 10 token xuất hiện nhiều nhất.