MulaiMulai sekarang secara gratis

Anotasi dan menyiapkan data pelatihan

Setelah mengumpulkan data, Anda dapat membuat anotasi data dalam format yang diperlukan untuk model spaCy. Dalam latihan ini, Anda akan berlatih membentuk catatan data beranotasi yang benar untuk tugas NER di domain medis.

Sebuah sentence dan dua entitas, yaitu entity_1 dengan teks chest pain bertipe SYMPTOM dan entity_2 dengan teks hyperthyroidism bertipe DISEASE, telah tersedia untuk Anda gunakan.

Latihan ini adalah bagian dari kursus

Pemrosesan Bahasa Alami dengan spaCy

Lihat Kursus

Petunjuk latihan

  • Lengkapi catatan annotated_data dalam format yang benar.
  • Ekstrak karakter awal dan akhir dari setiap entitas dan simpan sebagai variabel yang sesuai.
  • Simpan kalimat masukan yang sama beserta entitasnya dalam format pelatihan yang tepat sebagai training_data.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)
Edit dan Jalankan Kode