Anotação e preparação dos dados de treino
Depois de coletar os dados, você pode anotá-los no formato exigido por um modelo spaCy. Neste exercício, você vai praticar como formar o registro de dados anotados correto para uma tarefa de NER no domínio médico.
Uma sentence e duas entidades, entity_1 com o texto chest pain e tipo SYMPTOM, e entity_2 com o texto hyperthyroidism e tipo DISEASE, estão disponíveis para você usar.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Complete o registro
annotated_datano formato correto. - Extraia os caracteres inicial e final de cada entidade e armazene nas variáveis correspondentes.
- Armazene a mesma frase de entrada e suas entidades no formato adequado de treino como
training_data.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)