Criando dados de treinamento (1)

O Matcher baseado em regras do spaCy é uma ótima forma de criar rapidamente dados de treinamento para modelos de entidades nomeadas. Uma lista de sentenças está disponível na variável TEXTS. Você pode imprimi-la no shell do IPython para inspecionar. Queremos encontrar todas as menções a diferentes modelos de iPhone, para então criar dados de treinamento e ensinar um modelo a reconhecê-los como 'GADGET'.

O objeto nlp já foi criado para você e o Matcher está disponível na variável matcher.

Este exercicio faz parte do curso

NLP Avançado com spaCy

Ver curso

Instruções do exercicio

Escreva um padrão para dois tokens cujas formas em minúsculas correspondam a 'iphone' e 'x'.
Escreva um padrão para dois tokens: um token cuja forma em minúsculas corresponda a 'iphone' e um dígito opcional usando o operador '?'.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)

Editar e Executar Código