CommencerCommencer gratuitement

Annotation et préparation des données d’entraînement

Après avoir collecté des données, vous pouvez les annoter dans le format requis pour un modèle spaCy. Dans cet exercice, vous allez vous entraîner à construire l’enregistrement annoté correct pour une tâche d’NER dans le domaine médical.

Une sentence et deux entités, entity_1 avec le texte chest pain de type SYMPTOM, et entity_2 avec le texte hyperthyroidism de type DISEASE, sont à votre disposition.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

  • Complétez l’enregistrement annotated_data au format correct.
  • Extrayez les indices de début et de fin de chaque entité et stockez-les dans les variables correspondantes.
  • Stockez la même phrase d’entrée et ses entités au format d’entraînement approprié dans training_data.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)
Modifier et exécuter le code