Annotation et préparation des données d’entraînement
Après avoir collecté des données, vous pouvez les annoter dans le format requis pour un modèle spaCy. Dans cet exercice, vous allez vous entraîner à construire l’enregistrement annoté correct pour une tâche d’NER dans le domaine médical.
Une sentence et deux entités, entity_1 avec le texte chest pain de type SYMPTOM, et entity_2 avec le texte hyperthyroidism de type DISEASE, sont à votre disposition.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Complétez l’enregistrement
annotated_dataau format correct. - Extrayez les indices de début et de fin de chaque entité et stockez-les dans les variables correspondantes.
- Stockez la même phrase d’entrée et ses entités au format d’entraînement approprié dans
training_data.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)