NER en espagnol avec polyglot

Vous allez poursuivre votre exploration de polyglot avec une annotation en espagnol. Cet article n’est pas issu d’un journal : c’est donc votre premier exemple de texte plus proche d’un billet de blog. Selon vous, en quoi cela peut-il influencer la détection des entités ?

L’objet Text a été créé sous le nom txt, et chaque entité a été affichée, comme vous pouvez le voir dans l’IPython Shell.

Votre tâche consiste à déterminer combien d’entités contiennent les mots "Márquez" ou "Gabo" : ils renvoient à la même personne, mais de deux façons différentes !

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>

Voir le cours

Instructions de l’exercice

Itérez sur toutes les entités de txt, en utilisant ent comme variable d’itération.
Vérifiez si l’entité contient "Márquez" ou "Gabo". Si oui, incrémentez count. N’oubliez pas d’inclure l’accent á dans "Márquez" !
Cliquez sur "Soumettre la réponse" pour voir quel pourcentage d’entités renvoie à Gabriel García Márquez (alias Gabo).

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Initialize the count variable: count
count = 0

# Iterate over all the entities
____
    # Check whether the entity contains 'Márquez' or 'Gabo'
    ____
        # Increment count
        ____

# Print count
print(count)

# Calculate the percentage of entities that refer to "Gabo": percentage
percentage = count / len(txt.entities)
print(percentage)

Modifier et exécuter le code