Landen en relaties extraheren

In de vorige oefening schreef je een script met spaCy's PhraseMatcher om landnamen in tekst te vinden. Laten we die country matcher nu toepassen op een langere tekst, de syntaxis analyseren en de entiteiten van het document bijwerken met de gevonden landen. Het nlp-object is al aangemaakt.

De tekst is beschikbaar als de variabele text, de PhraseMatcher met de landpatronen als de variabele matcher. De klasse Span is al geïmporteerd.

Deze oefening maakt deel uit van de cursus

Geavanceerde NLP met spaCy

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a doc and find matches in it
doc = ____

# Iterate over the matches
for match_id, start, end in matcher(doc):
    # Create a Span with the label for "GPE"
    span = ____(____, ____, ____, label=____)

    # Overwrite the doc.ents and add the span
    doc.ents = list(doc.ents) + [____]

# Print the entities in the document
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == 'GPE'])

Code bewerken en uitvoeren