1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Lemmatization với spaCy

Trong bài tập này, bạn sẽ thực hành lemmatization. Lemmatization hữu ích để tạo ra dạng gốc của các từ phái sinh. Điều này có nghĩa là với bất kỳ câu nào, số lượng lemma kỳ vọng sẽ nhỏ hơn hoặc bằng số lượng token.

Bài đánh giá đồ ăn trên Amazon đầu tiên được cung cấp cho bạn trong một chuỗi gọi là text. en_core_web_sm đã được nạp dưới tên nlp, và đã chạy trên text để tạo document, một chứa Doc cho chuỗi văn bản.

tokens, một danh sách chứa các token của text, cũng đã được nạp sẵn để bạn sử dụng.

Hướng dẫn

100 XP
  • Thêm lemma cho tất cả token trong document, rồi in danh sách lemmas.
  • In danh sách tokens và quan sát sự khác biệt giữa tokens và lemmas.