1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Khai thác đặc trưng cho NLP bằng Python

Connected

Bài tập

Làm sạch một bài đăng blog

Trong bài tập này, bạn được cung cấp một đoạn trích từ một bài đăng blog. Nhiệm vụ của bạn là làm sạch văn bản này thành định dạng thân thiện với máy hơn. Việc này bao gồm chuyển về chữ thường, lemmatization và loại bỏ stopword, dấu câu và ký tự không phải chữ cái.

Đoạn trích có sẵn dưới dạng chuỗi blog và đã được in ra console. Danh sách stopword có sẵn là stopwords.

Hướng dẫn

100 XP
  • Dùng list comprehension, lặp qua doc để trích xuất lemma_ của từng token.
  • Loại bỏ stopword và các token không phải chữ cái bằng stopwords và isalpha().