Anotación y preparación de datos de entrenamiento
Después de recopilar datos, puedes anotar los datos en el formato requerido para un modelo de spaCy. En este ejercicio, practicarás cómo formar el registro de datos anotados correcto para una tarea de NER en el ámbito médico.
Tienes disponible una sentence y dos entidades: entity_1 con el texto chest pain y tipo SYMPTOM, y entity_2 con el texto hyperthyroidism y tipo DISEASE.
Este ejercicio forma parte del curso
Procesamiento del Lenguaje Natural con spaCy
Instrucciones del ejercicio
- Completa el registro
annotated_dataen el formato correcto. - Extrae los caracteres de inicio y fin de cada entidad y guárdalos en las variables correspondientes.
- Guarda la misma frase de entrada y sus entidades en el formato de entrenamiento adecuado como
training_data.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)