Spaanse NER met polyglot

Je gaat je verkenning van polyglot voortzetten met wat Spaanse annotatie. Dit artikel is niet door een krant geschreven, dus dit is je eerste voorbeeld van een meer blog-achtige tekst. Hoe denk je dat dit uitpakt bij het vinden van entiteiten?

Het Text-object is aangemaakt als txt, en elke entiteit is geprint, zoals je kunt zien in de IPython-shell.

Jouw specifieke taak is om te bepalen hoeveel van de entiteiten de woorden "Márquez" of "Gabo" bevatten — die verwijzen op verschillende manieren naar dezelfde persoon!

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in Python

Bekijk cursus

Oefeninstructies

Iteer over alle entiteiten van txt, met ent als je iteratorvariabele.
Controleer of de entiteit "Márquez" of "Gabo" bevat. Als dat zo is, verhoog count. Vergeet de geaccentueerde á in "Márquez" niet!
Klik op 'Antwoord verzenden' om te zien welk percentage van de entiteiten naar Gabriel García Márquez (aka Gabo) verwijst.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Initialize the count variable: count
count = 0

# Iterate over all the entities
____
    # Check whether the entity contains 'Márquez' or 'Gabo'
    ____
        # Increment count
        ____

# Print count
print(count)

# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)

Code bewerken en uitvoeren