1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

PhraseMatcher trong spaCy

Khi xử lý văn bản phi cấu trúc, bạn thường có các danh sách và từ điển dài cần quét và đối sánh trong đoạn văn bản cho trước. Các pattern của Matcher được tạo thủ công và mỗi token cần được mã hóa riêng lẻ. Nếu bạn có một danh sách cụm từ dài, Matcher không còn là lựa chọn tốt nhất. Khi đó, lớp PhraseMatcher giúp bạn đối sánh các từ điển dài. Trong bài tập này, bạn sẽ luyện tập truy xuất các pattern có cùng hình dạng với nhiều thuật ngữ bằng cách dùng lớp PhraseMatcher.

Mô hình en_core_web_sm đã được nạp sẵn và sẵn sàng sử dụng dưới tên nlp. Lớp PhraseMatcher đã được import. Một chuỗi text và một danh sách terms đã được chuẩn bị để bạn sử dụng.

Hướng dẫn

100 XP
  • Khởi tạo lớp PhraseMatcher với một attr để khớp theo hình dạng (shape) của các terms đã cho.
  • Tạo patterns để thêm vào đối tượng PhraseMatcher.
  • Tìm các khớp với những pattern đã cho và in ra chỉ số token bắt đầu và kết thúc, cùng đoạn văn bản khớp trong text đã cho.