Aan de slagGa gratis aan de slag

Annoteren en trainingsdata voorbereiden

Na het verzamelen van data kun je die annoteren in het vereiste formaat voor een spaCy-model. In deze oefening ga je oefenen met het maken van het juiste geannoteerde gegevensrecord voor een NER-taak in het medische domein.

Een sentence en twee entiteiten zijn beschikbaar: entity_1 met de tekst chest pain en het type SYMPTOM, en entity_2 met de tekst hyperthyroidism en het type DISEASE. Gebruik deze voor de taak.

Deze oefening maakt deel uit van de cursus

Natural Language Processing met spaCy

Cursus bekijken

Oefeninstructies

  • Vul het annotated_data-record aan in het juiste formaat.
  • Haal de begin- en eindposities van elke entiteit op en sla ze op in de bijbehorende variabelen.
  • Sla dezelfde invoerzins en de bijbehorende entiteiten op in het juiste trainingsformaat als training_data.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

text = "A patient with chest pain had hyperthyroidism."
entity_1 = "chest pain"
entity_2 = "hyperthyroidism"

# Store annotated data information in the correct format
annotated_data = {"sentence": ____, "entities": [{"label": "SYMPTOM", "value": ____}, {"label": "DISEASE", "value": ____}]}

# Extract start and end characters of each entity
entity_1_start_char = text.____(____)
entity_1_end_char = entity_1_start_char + len(____)
entity_2_start_char = text.____(____)
entity_2_end_char = entity_2_start_char + len(____)

# Store the same input information in the proper format for training
training_data = [(____, {"entities": [(____,____,"SYMPTOM"), 
                                      (____,____,"DISEASE")]})]
print(training_data)
Code bewerken en uitvoeren