1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Hiệu suất mô hình trên dữ liệu của bạn

Trong bài tập này, bạn sẽ luyện cách đánh giá một mô hình hiện có trên dữ liệu của mình. Ở đây, mục tiêu là xem xét hiệu suất mô hình trên một nhãn thực thể cụ thể, PRODUCT. Nếu một mô hình có thể phân loại chính xác tỷ lệ lớn các thực thể PRODUCT (ví dụ hơn 75%), bạn không cần huấn luyện mô hình với các ví dụ về thực thể PRODUCT; ngược lại, bạn nên cân nhắc huấn luyện mô hình để cải thiện khả năng dự đoán thực thể PRODUCT.

Bạn sẽ dùng hai bài đánh giá từ bộ dữ liệu Amazon Fine Food Reviews cho bài tập này. Bạn có thể truy cập các bài đánh giá này thông qua danh sách texts.

Mô hình en_core_web_sm đã được tải sẵn cho bạn. Bạn có thể gọi nlp() để truy cập. Mô hình cũng đã được chạy trên danh sách texts và documents — một danh sách các container Doc — đã sẵn sàng để bạn sử dụng.

Hướng dẫn

100 XP
  • Tạo danh sách target_entities gồm tất cả thực thể cho mỗi phần tử trong documents, và chỉ thêm một tuple (văn bản thực thể, nhãn thực thể) nếu Jumbo xuất hiện trong văn bản thực thể.
  • Với mọi tuple trong target_entities, thêm True vào danh sách correct_labels nếu nhãn thực thể (thuộc tính thứ hai trong tuple) là PRODUCT, nếu không thì thêm False.