1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Luyện tập tiền xử lý văn bản

Giờ đến lượt bạn áp dụng các kỹ thuật đã học để làm sạch văn bản nhằm có kết quả NLP tốt hơn. Bạn sẽ cần loại bỏ stop words và ký tự không phải chữ cái, lemmatize, và tạo lại bag-of-words trên văn bản đã được làm sạch.

Bạn bắt đầu với cùng tập token như ở bài trước: lower_tokens. Bạn cũng đã import lớp Counter.

Hướng dẫn

100 XP
  • Import lớp WordNetLemmatizer từ nltk.stem.
  • Tạo danh sách alpha_only chỉ chứa các ký tự chữ cái. Bạn có thể dùng phương thức .isalpha() để kiểm tra điều này.
  • Tạo danh sách khác tên no_stops gồm các từ từ alpha_only mà không nằm trong english_stops.
  • Khởi tạo một đối tượng WordNetLemmatizer tên wordnet_lemmatizer và dùng phương thức .lemmatize() của nó trên các token trong no_stops để tạo danh sách mới lemmatized.
  • Tạo một Counter mới tên bow với các từ đã lemmatize.
  • Cuối cùng, in ra 10 token phổ biến nhất.