1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Nhận dạng thực thể có tên (NER) với NLTK

Giờ đến lúc bạn khám phá tính năng nhận dạng thực thể có tên! Một bài báo đã được thu thập sẵn và nạp vào không gian làm việc của bạn. Nhiệm vụ của bạn là dùng nltk để tìm các thực thể có tên trong bài báo này.

Dựa trên các tên bạn tìm được, bài báo có thể nói về điều gì?

Cùng với nltk, sent_tokenize và word_tokenize từ nltk.tokenize đã được import sẵn.

Hướng dẫn

100 XP
  • Tách article thành các câu.
  • Dùng list comprehension để tách mỗi câu trong sentences thành các từ.
  • Trong một list comprehension, gán nhãn từ loại cho từng câu đã tách từ bằng nltk.pos_tag().
  • Chunk mỗi câu đã gán nhãn thành các khối thực thể có tên bằng nltk.ne_chunk_sents(). Bên cạnh pos_sentences, chỉ định thêm đối số từ khóa binary=True.
  • Lặp qua từng câu và từng chunk, kiểm tra xem đó có phải là một khối thực thể có tên không bằng cách kiểm tra thuộc tính label, và chunk.label() có bằng "NE" hay không. Nếu có, in ra chunk đó.