Criando dados de treinamento (1)
O Matcher baseado em regras do spaCy é uma ótima forma de criar rapidamente dados de treinamento para modelos de entidades nomeadas. Uma lista de sentenças está disponível na variável TEXTS. Você pode imprimi-la no shell do IPython para inspecionar. Queremos encontrar todas as menções a diferentes modelos de iPhone, para então criar dados de treinamento e ensinar um modelo a reconhecê-los como 'GADGET'.
O objeto nlp já foi criado para você e o Matcher está disponível na variável matcher.
Este exercício faz parte do curso
NLP Avançado com spaCy
Instruções do exercício
- Escreva um padrão para dois tokens cujas formas em minúsculas correspondam a
'iphone'e'x'. - Escreva um padrão para dois tokens: um token cuja forma em minúsculas corresponda a
'iphone'e um dígito opcional usando o operador'?'.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]
# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]
# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)