Meerdere labels trainen
Hier is een kleine steekproef van een gegevensset die is gemaakt om een nieuw entiteitstype WEBSITE te trainen. De oorspronkelijke gegevensset bevat enkele duizenden zinnen. In deze oefening ga je de labels met de hand toevoegen. In het echt wil je dit waarschijnlijk automatiseren en een annotatietool gebruiken – bijvoorbeeld Brat, een populaire open-sourcetool, of Prodigy, onze eigen annotatietool die integreert met spaCy.
Na deze oefening ben je bijna klaar met de cursus! Vond je het leuk? Stuur Ines dan gerust een bedankje via Twitter – dat vindt ze tof! Tweet naar Ines
Deze oefening maakt deel uit van de cursus
Geavanceerde NLP met spaCy
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
TRAINING_DATA = [
("Reddit partners with Patreon to help creators build communities",
{'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
("PewDiePie smashes YouTube record",
{'entities': [(____, ____, 'WEBSITE')]}),
("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans",
{'entities': [(____, ___, 'WEBSITE')]}),
# And so on...
]