ComenzarEmpieza gratis

Anotación y preparación de datos de entrenamiento

Después de recopilar datos, puedes anotar los datos en el formato requerido para un modelo de spaCy. En este ejercicio, practicarás cómo formar el registro de datos anotados correcto para una tarea de NER en el ámbito médico.

Tienes disponible una sentence y dos entidades: entity_1 con el texto chest pain y tipo SYMPTOM, y entity_2 con el texto hyperthyroidism y tipo DISEASE.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Ver curso

Instrucciones del ejercicio

  • Completa el registro annotated_data en el formato correcto.
  • Extrae los caracteres de inicio y fin de cada entidad y guárdalos en las variables correspondientes.
  • Guarda la misma frase de entrada y sus entidades en el formato de entrenamiento adecuado como training_data.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)
Editar y ejecutar código