Annotation und Vorbereitung von Trainingsdaten
Nach dem Sammeln von Daten kannst du sie im benötigten Format für ein spaCy-Modell annotieren. In dieser Übung übst du, den korrekten annotierten Dateneintrag für eine NER-Aufgabe im medizinischen Bereich zu erstellen.
Eine sentence und zwei Entitäten stehen dir zur Verfügung: entity_1 mit dem Text chest pain und dem Typ SYMPTOM sowie entity_2 mit dem Text hyperthyroidism und dem Typ DISEASE.
Diese Übung ist Teil des Kurses
Natural Language Processing mit spaCy
Anleitung zur Übung
- Vervollständige den
annotated_data-Eintrag im richtigen Format. - Ermittle Start- und Endzeichen jeder Entität und speichere sie in den entsprechenden Variablen.
- Speichere denselben Eingabesatz und seine Entitäten im passenden Trainingsformat als
training_data.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"
# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}
# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)
# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"),
(____,____,"DISEASE")]})]
print(training_data)