Anotasi dan menyiapkan data pelatihan
Setelah mengumpulkan data, Anda dapat membuat anotasi data dalam format yang diperlukan untuk model spaCy. Dalam latihan ini, Anda akan berlatih membentuk catatan data beranotasi yang benar untuk tugas NER di domain medis.
Sebuah sentence dan dua entitas, yaitu entity_1 dengan teks chest pain bertipe SYMPTOM dan entity_2 dengan teks hyperthyroidism bertipe DISEASE, telah tersedia untuk Anda gunakan.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Lengkapi catatan
annotated_datadalam format yang benar. - Ekstrak karakter awal dan akhir dari setiap entitas dan simpan sebagai variabel yang sesuai.
- Simpan kalimat masukan yang sama beserta entitasnya dalam format pelatihan yang tepat sebagai
training_data.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)