Creación de datos de entrenamiento (1)

El Matcher basado en reglas de spaCy es una forma estupenda de crear rápidamente datos de entrenamiento para modelos de entidades con nombre. Tienes una lista de oraciones en la variable TEXTS. Puedes imprimirla en la consola de IPython para inspeccionarla. Queremos encontrar todas las menciones de distintos modelos de iPhone, para así crear datos de entrenamiento y enseñar a un modelo a reconocerlos como 'GADGET'.

El objeto nlp ya está creado y el Matcher está disponible en la variable matcher.

Este ejercicio forma parte del curso

NLP avanzado con spaCy

Ver curso

Instrucciones del ejercicio

Escribe un patrón para dos tokens cuyas formas en minúsculas coincidan con 'iphone' y 'x'.
Escribe un patrón para dos tokens: un token cuya forma en minúsculas coincida con 'iphone' y un dígito opcional usando el operador '?'.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)

Editar y ejecutar código