Training mit mehreren Labels

Hier ist ein kleiner Ausschnitt eines Datensatzes, mit dem ein neuer Entitätstyp WEBSITE trainiert werden soll. Der ursprüngliche Datensatz enthält ein paar tausend Sätze. In dieser Übung übernimmst du die Auszeichnung per Hand. In der Praxis möchtest du das wahrscheinlich automatisieren und ein Annotations-Tool verwenden – zum Beispiel Brat, eine beliebte Open-Source-Lösung, oder Prodigy, unser eigenes Annotations-Tool, das sich in spaCy integrieren lässt.

Nach dieser Übung bist du fast mit dem Kurs durch! Wenn er dir gefallen hat, schick Ines gern ein Dankeschön auf Twitter – sie freut sich! Tweet an Ines

Diese Übung ist Teil des Kurses

Fortgeschrittenes NLP mit spaCy

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

TRAINING_DATA = [
    ("Reddit partners with Patreon to help creators build communities", 
     {'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
  
    ("PewDiePie smashes YouTube record", 
     {'entities': [(____, ____, 'WEBSITE')]}),
  
    ("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans", 
     {'entities': [(____, ___, 'WEBSITE')]}),
    # And so on...
]

Code bearbeiten und ausführen