Créer des données d’entraînement (1)

Le Matcher basé sur des règles de spaCy est un excellent moyen de créer rapidement des données d’entraînement pour les modèles de reconnaissance d’entités nommées. Une liste de phrases est disponible dans la variable TEXTS. Vous pouvez l’afficher dans le shell IPython pour l’inspecter. Nous voulons trouver toutes les mentions des différents modèles d’iPhone, afin de créer des données d’entraînement pour apprendre à un modèle à les reconnaître comme 'GADGET'.

L’objet nlp a déjà été créé pour vous et le Matcher est disponible dans la variable matcher.

Cet exercice fait partie du cours

<cours>NLP avancé avec spaCy</cours>

Voir le cours

Instructions de l’exercice

Écrivez un motif pour deux tokens dont les formes en minuscules correspondent à 'iphone' et 'x'.
Écrivez un motif pour deux tokens : un token dont la forme en minuscules correspond à 'iphone' et un chiffre optionnel en utilisant l’opérateur '?'.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)

Modifier et exécuter le code