LoslegenKostenlos loslegen

Annotation und Vorbereitung von Trainingsdaten

Nach dem Sammeln von Daten kannst du sie im benötigten Format für ein spaCy-Modell annotieren. In dieser Übung übst du, den korrekten annotierten Daten­eintrag für eine NER-Aufgabe im medizinischen Bereich zu erstellen.

Eine sentence und zwei Entitäten stehen dir zur Verfügung: entity_1 mit dem Text chest pain und dem Typ SYMPTOM sowie entity_2 mit dem Text hyperthyroidism und dem Typ DISEASE.

Diese Übung ist Teil des Kurses

Natural Language Processing mit spaCy

Kurs anzeigen

Anleitung zur Übung

  • Vervollständige den annotated_data-Eintrag im richtigen Format.
  • Ermittle Start- und Endzeichen jeder Entität und speichere sie in den entsprechenden Variablen.
  • Speichere denselben Eingabesatz und seine Entitäten im passenden Trainingsformat als training_data.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)
Code bearbeiten und ausführen