Déboguer des motifs (2)

Les deux motifs de cet exercice contiennent des erreurs et ne correspondront pas comme prévu. Pouvez-vous les corriger ?

L’objet nlp et un doc ont déjà été créés pour vous. Si vous êtes bloqué, essayez d’afficher les tokens dans le doc pour voir comment le texte est segmenté et ajustez le motif afin que chaque dictionnaire représente un token.

Cet exercice fait partie du cours

<cours>NLP avancé avec spaCy</cours>

Voir le cours

Instructions de l’exercice

Modifiez pattern1 pour qu’il corresponde correctement à toutes les occurrences insensibles à la casse de "Amazon" suivies d’un nom propre en casse de titre.
Modifiez pattern2 pour qu’il corresponde correctement à toutes les occurrences insensibles à la casse de "ad-free", suivies du nom qui vient après.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create the match patterns
pattern1 = [{'LOWER': 'Amazon'}, {'IS_TITLE': True, 'POS': 'PROPN'}]
pattern2 = [{'LOWER': 'ad-free'}, {'POS': 'NOUN'}]

# Initialize the Matcher and add the patterns
matcher = Matcher(nlp.vocab)
matcher.add('PATTERN1', None, pattern1)
matcher.add('PATTERN2', None, pattern2)

# Iterate over the matches
for match_id, start, end in matcher(doc):
    # Print pattern string name and text of matched span
    print(doc.vocab.strings[match_id], doc[start:end].text)

Modifier et exécuter le code