1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Xử lý ngôn ngữ tự nhiên với spaCy

Connected

Bài tập

Huấn luyện spaCy model từ đầu

spaCy cung cấp cách tiếp cận rất gọn nhẹ và hiệu quả để huấn luyện mô hình của riêng bạn. Trong bài tập này, bạn sẽ huấn luyện một mô hình NER từ đầu trên một corpus thực tế (dữ liệu CORD-19).

Dữ liệu huấn luyện đã có sẵn đúng định dạng trong training_data. Trong bài này, bạn sẽ dùng danh sách nhãn cho sẵn ("Pathogen", "MedicalCondition", "Medicine") được lưu trong labels, cùng với một mô hình tiếng Anh trống (nlp) có thành phần NER. Các labels y khoa mục tiêu sẽ được thêm vào pipeline NER và sau đó bạn có thể huấn luyện mô hình trong một epoch. Bạn có thể dùng lớp Example đã được import sẵn để chuyển đổi dữ liệu huấn luyện sang định dạng yêu cầu. Để theo dõi quá trình huấn luyện, bạn có thể thêm một danh sách losses vào phương thức .update() và xem xét training loss.

Hướng dẫn

100 XP
  • Tạo một spaCy model trống và thêm một thành phần NER vào mô hình.
  • Vô hiệu hóa các thành phần pipeline khác, dùng đối tượng optimizer đã tạo và cập nhật trọng số mô hình bằng dữ liệu đã được chuyển sang định dạng Example.