LoslegenKostenlos loslegen

Trainingsdaten erstellen (1)

Der regelbasierte Matcher von spaCy ist eine hervorragende Möglichkeit, schnell Trainingsdaten für Named-Entity-Modelle zu erstellen. Eine Liste von Sätzen steht dir als Variable TEXTS zur Verfügung. Du kannst sie dir in der IPython-Shell ausgeben lassen, um sie zu prüfen. Wir möchten alle Erwähnungen verschiedener iPhone-Modelle finden, damit wir Trainingsdaten erstellen können, um ein Modell darauf zu trainieren, sie als 'GADGET' zu erkennen.

Das nlp-Objekt wurde bereits für dich erstellt und der Matcher ist als Variable matcher verfügbar.

Diese Übung ist Teil des Kurses

Fortgeschrittenes NLP mit spaCy

Kurs anzeigen

Anleitung zur Übung

  • Schreibe ein Pattern für zwei Tokens, deren Kleinschreibung 'iphone' und 'x' entspricht.
  • Schreibe ein Pattern für zwei Tokens: ein Token, dessen Kleinschreibung 'iphone' entspricht, und eine optionale Ziffer mithilfe des Operators '?'.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Two tokens whose lowercase forms match 'iphone' and 'x'
pattern1 = [{____: ____}, {____: ____}]

# Token whose lowercase form matches 'iphone' and an optional digit
pattern2 = [{____: ____}, {____: ____, ___: ____}]

# Add patterns to the matcher
matcher.add('GADGET', None, pattern1, pattern2)
Code bearbeiten und ausführen