Aan de slagGa gratis aan de slag

Trainingsdata maken (1)

spaCy's regelgebaseerde Matcher is een mooie manier om snel trainingsdata te maken voor named entity-modellen. Een lijst met zinnen is beschikbaar als de variabele TEXTS. Je kunt die in de IPython-shell printen om te bekijken. We willen alle vermeldingen van verschillende iPhone-modellen vinden, zodat we trainingsdata kunnen maken om een model te leren ze te herkennen als 'GADGET'.

Het nlp-object is al voor je aangemaakt en de Matcher is beschikbaar als de variabele matcher.

Deze oefening maakt deel uit van de cursus

Geavanceerde NLP met spaCy

Cursus bekijken

Oefeninstructies

  • Schrijf een patroon voor twee tokens waarvan de kleinelettersvormen overeenkomen met 'iphone' en 'x'.
  • Schrijf een patroon voor twee tokens: één token waarvan de kleinelettersvorm overeenkomt met 'iphone' en een optioneel cijfer met de operator '?'.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)
Code bewerken en uitvoeren