1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

NER với spaCy

Nhận dạng thực thể có tên (Named Entity Recognition - NER) giúp bạn nhanh chóng xác định các thành phần quan trọng trong một tài liệu, như tên người và địa điểm. Nó giúp sắp xếp dữ liệu phi cấu trúc và phát hiện thông tin quan trọng — điều cốt yếu khi bạn xử lý các bộ dữ liệu lớn. Trong bài tập này, bạn sẽ thực hành Named Entity Recognition.

en_core_web_sm đã được nạp sẵn dưới tên nlp. Ba bình luận từ bộ dữ liệu Airline Travel Information System (ATIS) đã được cung cấp trong một danh sách gọi là texts.

Hướng dẫn

100 XP
  • Tạo documents, một danh sách gồm tất cả các Doc cho từng văn bản trong texts bằng list comprehension.
  • Với mỗi doc, in ra văn bản của từng thực thể và nhãn tương ứng bằng cách lặp qua doc.ents.
  • In văn bản của token thứ sáu và kiểu thực thể của Doc thứ hai.