Extraction des pays et des relations

Dans l’exercice précédent, vous avez écrit un script utilisant le PhraseMatcher de spaCy pour repérer les noms de pays dans un texte. Utilisons maintenant ce détecteur de pays sur un texte plus long, analysons la syntaxe et mettons à jour les entités du document avec les pays trouvés. L’objet nlp a déjà été créé.

Le texte est disponible dans la variable text, le PhraseMatcher avec les motifs de pays dans la variable matcher. La classe Span a déjà été importée.

Cet exercice fait partie du cours

<cours>NLP avancé avec spaCy</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a doc and find matches in it
doc = ____

# Iterate over the matches
for match_id, start, end in matcher(doc):
    # Create a Span with the label for "GPE"
    span = ____(____, ____, ____, label=____)

    # Overwrite the doc.ents and add the span
    doc.ents = list(doc.ents) + [____]

# Print the entities in the document
print([(ent.text, ent.label_) for ent in doc.ents if ent.label_ == 'GPE'])

Modifier et exécuter le code