Anotação e preparação dos dados de treino

Depois de coletar os dados, você pode anotá-los no formato exigido por um modelo spaCy. Neste exercício, você vai praticar como formar o registro de dados anotados correto para uma tarefa de NER no domínio médico.

Uma sentence e duas entidades, entity_1 com o texto chest pain e tipo SYMPTOM, e entity_2 com o texto hyperthyroidism e tipo DISEASE, estão disponíveis para você usar.

Este exercício faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercício

Complete o registro annotated_data no formato correto.
Extraia os caracteres inicial e final de cada entidade e armazene nas variáveis correspondentes.
Armazene a mesma frase de entrada e suas entidades no formato adequado de treino como training_data.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)

Editar e executar o código