Training mit mehreren Labels
Hier ist ein kleiner Ausschnitt eines Datensatzes, mit dem ein neuer Entitätstyp WEBSITE trainiert werden soll. Der ursprüngliche Datensatz enthält ein paar tausend Sätze. In dieser Übung übernimmst du die Auszeichnung per Hand. In der Praxis möchtest du das wahrscheinlich automatisieren und ein Annotations-Tool verwenden – zum Beispiel Brat, eine beliebte Open-Source-Lösung, oder Prodigy, unser eigenes Annotations-Tool, das sich in spaCy integrieren lässt.
Nach dieser Übung bist du fast mit dem Kurs durch! Wenn er dir gefallen hat, schick Ines gern ein Dankeschön auf Twitter – sie freut sich! Tweet an Ines
Diese Übung ist Teil des Kurses
Fortgeschrittenes NLP mit spaCy
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
TRAINING_DATA = [
("Reddit partners with Patreon to help creators build communities",
{'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
("PewDiePie smashes YouTube record",
{'entities': [(____, ____, 'WEBSITE')]}),
("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans",
{'entities': [(____, ___, 'WEBSITE')]}),
# And so on...
]