Meerdere labels trainen

Hier is een kleine steekproef van een gegevensset die is gemaakt om een nieuw entiteitstype WEBSITE te trainen. De oorspronkelijke gegevensset bevat enkele duizenden zinnen. In deze oefening ga je de labels met de hand toevoegen. In het echt wil je dit waarschijnlijk automatiseren en een annotatietool gebruiken – bijvoorbeeld Brat, een populaire open-sourcetool, of Prodigy, onze eigen annotatietool die integreert met spaCy.

Na deze oefening ben je bijna klaar met de cursus! Vond je het leuk? Stuur Ines dan gerust een bedankje via Twitter – dat vindt ze tof! Tweet naar Ines

Deze oefening maakt deel uit van de cursus

Geavanceerde NLP met spaCy

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

TRAINING_DATA = [
    ("Reddit partners with Patreon to help creators build communities", 
     {'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
  
    ("PewDiePie smashes YouTube record", 
     {'entities': [(____, ____, 'WEBSITE')]}),
  
    ("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans", 
     {'entities': [(____, ___, 'WEBSITE')]}),
    # And so on...
]

Code bewerken en uitvoeren