Anotasi dan menyiapkan data pelatihan
Setelah mengumpulkan data, Anda dapat membuat anotasi data dalam format yang diperlukan untuk model spaCy. Dalam latihan ini, Anda akan berlatih membentuk catatan data beranotasi yang benar untuk tugas NER di domain medis.
Sebuah sentence dan dua entitas, yaitu entity_1 dengan teks chest pain bertipe SYMPTOM dan entity_2 dengan teks hyperthyroidism bertipe DISEASE, telah tersedia untuk Anda gunakan.
Latihan ini merupakan bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Instruksi latihan
- Lengkapi catatan
annotated_datadalam format yang benar. - Ekstrak karakter awal dan akhir dari setiap entitas dan simpan sebagai variabel yang sesuai.
- Simpan kalimat masukan yang sama beserta entitasnya dalam format pelatihan yang tepat sebagai
training_data.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)