Trainingsdaten erstellen (1)
Der regelbasierte Matcher von spaCy ist eine hervorragende Möglichkeit, schnell Trainingsdaten für Named-Entity-Modelle zu erstellen. Eine Liste von Sätzen steht dir als Variable TEXTS zur Verfügung. Du kannst sie dir in der IPython-Shell ausgeben lassen, um sie zu prüfen. Wir möchten alle Erwähnungen verschiedener iPhone-Modelle finden, damit wir Trainingsdaten erstellen können, um ein Modell darauf zu trainieren, sie als 'GADGET' zu erkennen.
Das nlp-Objekt wurde bereits für dich erstellt und der Matcher ist als Variable matcher verfügbar.
Diese Übung ist Teil des Kurses
Fortgeschrittenes NLP mit spaCy
Anleitung zur Übung
- Schreibe ein Pattern für zwei Tokens, deren Kleinschreibung
'iphone'und'x'entspricht. - Schreibe ein Pattern für zwei Tokens: ein Token, dessen Kleinschreibung
'iphone'entspricht, und eine optionale Ziffer mithilfe des Operators'?'.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]
# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]
# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)