ComeçarComece de graça

Criando dados de treinamento (1)

O Matcher baseado em regras do spaCy é uma ótima forma de criar rapidamente dados de treinamento para modelos de entidades nomeadas. Uma lista de sentenças está disponível na variável TEXTS. Você pode imprimi-la no shell do IPython para inspecionar. Queremos encontrar todas as menções a diferentes modelos de iPhone, para então criar dados de treinamento e ensinar um modelo a reconhecê-los como 'GADGET'.

O objeto nlp já foi criado para você e o Matcher está disponível na variável matcher.

Este exercício faz parte do curso

NLP Avançado com spaCy

Ver curso

Instruções do exercício

  • Escreva um padrão para dois tokens cujas formas em minúsculas correspondam a 'iphone' e 'x'.
  • Escreva um padrão para dois tokens: um token cuja forma em minúsculas corresponda a 'iphone' e um dígito opcional usando o operador '?'.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)
Editar e executar o código