1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

So khớp với cú pháp mở rộng trong spaCy

Trích xuất thông tin dựa trên luật là thành phần thiết yếu của mọi pipeline NLP. Lớp Matcher cho phép biểu thức mẫu linh hoạt hơn bằng cách hỗ trợ một số toán tử bên trong dấu ngoặc nhọn. Các toán tử này dùng cho so sánh mở rộng và trông giống với các toán tử của Python như in, not in và các toán tử so sánh. Trong bài tập này, bạn sẽ luyện tập chức năng so khớp Matcher của spaCy để tìm các lần xuất hiện của những thuật ngữ đã cho trong một văn bản ví dụ.

Lớp Matcher đã được import từ thư viện spacy.matcher. Bạn sẽ sử dụng một đối tượng Doc chứa văn bản ví dụ trong bài tập này bằng cách gọi doc. Một mô hình spaCy đã được nạp sẵn cũng có thể truy cập qua nlp.

Hướng dẫn

100 XP
  • Khởi tạo một đối tượng matcher bằng Matcher và nlp.
  • Dùng toán tử IN để định nghĩa một pattern so khớp tiny squares và tiny mouthful.
  • Dùng pattern này để tìm các kết quả khớp trong doc.
  • In chỉ số token bắt đầu và kết thúc, cùng đoạn văn bản tương ứng của các kết quả khớp.