Spaanse NER met polyglot
Je gaat je verkenning van polyglot voortzetten met wat Spaanse annotatie. Dit artikel is niet door een krant geschreven, dus dit is je eerste voorbeeld van een meer blog-achtige tekst. Hoe denk je dat dit uitpakt bij het vinden van entiteiten?
Het Text-object is aangemaakt als txt, en elke entiteit is geprint, zoals je kunt zien in de IPython-shell.
Jouw specifieke taak is om te bepalen hoeveel van de entiteiten de woorden "Márquez" of "Gabo" bevatten — die verwijzen op verschillende manieren naar dezelfde persoon!
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in Python
Oefeninstructies
- Iteer over alle entiteiten van
txt, metentals je iteratorvariabele. - Controleer of de entiteit
"Márquez"of"Gabo"bevat. Als dat zo is, verhoogcount. Vergeet de geaccentueerdeáin"Márquez"niet! - Klik op 'Antwoord verzenden' om te zien welk percentage van de entiteiten naar Gabriel García Márquez (aka Gabo) verwijst.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Initialize the count variable: count
count = 0
# Iterate over all the entities
____
# Check whether the entity contains 'Márquez' or 'Gabo'
____
# Increment count
____
# Print count
print(count)
# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)