NER en espagnol avec polyglot
Vous allez poursuivre votre exploration de polyglot avec une annotation en espagnol. Cet article n’est pas issu d’un journal : c’est donc votre premier exemple de texte plus proche d’un billet de blog. Selon vous, en quoi cela peut-il influencer la détection des entités ?
L’objet Text a été créé sous le nom txt, et chaque entité a été affichée, comme vous pouvez le voir dans l’IPython Shell.
Votre tâche consiste à déterminer combien d’entités contiennent les mots "Márquez" ou "Gabo" : ils renvoient à la même personne, mais de deux façons différentes !
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Itérez sur toutes les entités de
txt, en utilisantentcomme variable d’itération. - Vérifiez si l’entité contient
"Márquez"ou"Gabo". Si oui, incrémentezcount. N’oubliez pas d’inclure l’accentádans"Márquez"! - Cliquez sur "Soumettre la réponse" pour voir quel pourcentage d’entités renvoie à Gabriel García Márquez (alias Gabo).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Initialize the count variable: count
count = 0
# Iterate over all the entities
____
# Check whether the entity contains 'Márquez' or 'Gabo'
____
# Increment count
____
# Print count
print(count)
# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)