Annotazione e preparazione dei dati di training
Dopo aver raccolto i dati, puoi annotarli nel formato richiesto per un modello spaCy. In questo esercizio, farai pratica nel creare il record di dati annotati corretto per un'attività di NER nel dominio medico.
Hai a disposizione una sentence e due entità: entity_1 con testo chest pain e tipo SYMPTOM, ed entity_2 con testo hyperthyroidism e tipo DISEASE.
Questo esercizio fa parte del corso
Natural Language Processing con spaCy
Istruzioni dell'esercizio
- Completa il record
annotated_datanel formato corretto. - Estrai i caratteri di inizio e fine di ciascuna entità e salvali nelle variabili corrispondenti.
- Salva la stessa frase di input e le sue entità nel formato di training corretto come
training_data.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)