Landen en relaties extraheren
In de vorige oefening schreef je een script met spaCy's PhraseMatcher om landnamen in tekst te vinden. Laten we die country matcher nu toepassen op een langere tekst, de syntaxis analyseren en de entiteiten van het document bijwerken met de gevonden landen. Het nlp-object is al aangemaakt.
De tekst is beschikbaar als de variabele text, de PhraseMatcher met de landpatronen als de variabele matcher. De klasse Span is al geïmporteerd.
Deze oefening maakt deel uit van de cursus
Geavanceerde NLP met spaCy
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a doc and find matches in it
doc = ____
# Iterate over the matches
for match_id, start, end in matcher(doc):
# Create a Span with the label for "GPE"
span = ____(____, ____, ____, label=____)
# Overwrite the doc.ents and add the span
doc.ents = list(doc.ents) + [____]
# Print the entities in the document
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == 'GPE'])