Trainingsdata maken (1)

spaCy's regelgebaseerde Matcher is een mooie manier om snel trainingsdata te maken voor named entity-modellen. Een lijst met zinnen is beschikbaar als de variabele TEXTS. Je kunt die in de IPython-shell printen om te bekijken. We willen alle vermeldingen van verschillende iPhone-modellen vinden, zodat we trainingsdata kunnen maken om een model te leren ze te herkennen als 'GADGET'.

Het nlp-object is al voor je aangemaakt en de Matcher is beschikbaar als de variabele matcher.

Deze oefening maakt deel uit van de cursus

Geavanceerde NLP met spaCy

Bekijk cursus

Oefeninstructies

Schrijf een patroon voor twee tokens waarvan de kleinelettersvormen overeenkomen met 'iphone' en 'x'.
Schrijf een patroon voor twee tokens: één token waarvan de kleinelettersvorm overeenkomt met 'iphone' en een optioneel cijfer met de operator '?'.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)

Code bewerken en uitvoeren