1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Gán nhãn và chuẩn bị dữ liệu huấn luyện

Sau khi thu thập dữ liệu, bạn có thể gán nhãn dữ liệu theo định dạng yêu cầu cho mô hình spaCy. Trong bài tập này, bạn sẽ luyện tập tạo bản ghi dữ liệu đã gán nhãn đúng định dạng cho một tác vụ NER trong lĩnh vực y khoa.

Một sentence và hai thực thể gồm entity_1 với văn bản chest pain và kiểu SYMPTOM, cùng entity_2 với văn bản hyperthyroidism và kiểu DISEASE đã được cung cấp để bạn sử dụng.

Hướng dẫn

100 XP
  • Hoàn thiện bản ghi annotated_data theo đúng định dạng.
  • Trích xuất vị trí ký tự bắt đầu và kết thúc của mỗi thực thể và lưu vào các biến tương ứng.
  • Lưu cùng câu đầu vào và các thực thể của nó theo định dạng huấn luyện phù hợp dưới tên training_data.