Trainingsdata maken (1)
spaCy's regelgebaseerde Matcher is een mooie manier om snel trainingsdata te maken voor named entity-modellen. Een lijst met zinnen is beschikbaar als de variabele TEXTS. Je kunt die in de IPython-shell printen om te bekijken. We willen alle vermeldingen van verschillende iPhone-modellen vinden, zodat we trainingsdata kunnen maken om een model te leren ze te herkennen als 'GADGET'.
Het nlp-object is al voor je aangemaakt en de Matcher is beschikbaar als de variabele matcher.
Deze oefening maakt deel uit van de cursus
Geavanceerde NLP met spaCy
Oefeninstructies
- Schrijf een patroon voor twee tokens waarvan de kleinelettersvormen overeenkomen met
'iphone'en'x'. - Schrijf een patroon voor twee tokens: één token waarvan de kleinelettersvorm overeenkomt met
'iphone'en een optioneel cijfer met de operator'?'.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]
# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]
# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)