1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Natural Language Processing bằng Python

Connected

Bài tập

Luyện tập trực quan hóa

Trong bài tập này, bạn sẽ dùng một số thực thể được trích xuất và nhóm của chúng từ loạt bài báo để vẽ biểu đồ mức độ đa dạng của các loại thực thể được đặt tên trong các bài viết.

Bạn sẽ dùng một defaultdict tên là ner_categories, với các khóa đại diện cho từng loại nhóm thực thể, và các giá trị để đếm số lần xuất hiện của mỗi loại thực thể. Bạn có một danh sách câu đã chunk tên là chunked_sentences tương tự bài trước, nhưng lần này có các tên danh mục không nhị phân.

Bạn có thể dùng hasattr() để xác định xem mỗi chunk có 'label' hay không, rồi dùng phương thức .label() của chunk làm khóa cho từ điển.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • Tạo một defaultdict tên là ner_categories, với kiểu mặc định đặt là int.