Créer des données d’entraînement (1)
Le Matcher basé sur des règles de spaCy est un excellent moyen de créer rapidement des données d’entraînement pour les modèles de reconnaissance d’entités nommées. Une liste de phrases est disponible dans la variable TEXTS. Vous pouvez l’afficher dans le shell IPython pour l’inspecter. Nous voulons trouver toutes les mentions des différents modèles d’iPhone, afin de créer des données d’entraînement pour apprendre à un modèle à les reconnaître comme 'GADGET'.
L’objet nlp a déjà été créé pour vous et le Matcher est disponible dans la variable matcher.
Cet exercice fait partie du cours
NLP avancé avec spaCy
Instructions
- Écrivez un motif pour deux tokens dont les formes en minuscules correspondent à
'iphone'et'x'. - Écrivez un motif pour deux tokens : un token dont la forme en minuscules correspond à
'iphone'et un chiffre optionnel en utilisant l’opérateur'?'.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]
# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]
# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)