Annotazione e preparazione dei dati di training

Dopo aver raccolto i dati, puoi annotarli nel formato richiesto per un modello spaCy. In questo esercizio, farai pratica nel creare il record di dati annotati corretto per un'attività di NER nel dominio medico.

Hai a disposizione una sentence e due entità: entity_1 con testo chest pain e tipo SYMPTOM, ed entity_2 con testo hyperthyroidism e tipo DISEASE.

Questo esercizio fa parte del corso

Natural Language Processing con spaCy

Visualizza corso

Istruzioni dell'esercizio

Completa il record annotated_data nel formato corretto.
Estrai i caratteri di inizio e fine di ciascuna entità e salvali nelle variabili corrispondenti.
Salva la stessa frase di input e le sue entità nel formato di training corretto come training_data.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)

Modifica ed esegui il codice