Entraîner plusieurs libellés
Voici un petit extrait d’un jeu de données créé pour entraîner un nouveau type d’entité WEBSITE. Le jeu de données original contient plusieurs milliers de phrases. Dans cet exercice, vous allez faire l’annotation à la main. Dans la pratique, vous voudrez sans doute automatiser cela et utiliser un outil d’annotation – par exemple, Brat, une solution open source très populaire, ou Prodigy, notre propre outil d’annotation qui s’intègre à spaCy.
Après cet exercice, vous aurez presque terminé le cours ! Si vous l’avez apprécié, n’hésitez pas à envoyer un message de remerciement à Ines sur Twitter – elle l’appréciera ! Tweet to Ines
Cet exercice fait partie du cours
NLP avancé avec spaCy
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
TRAINING_DATA = [
("Reddit partners with Patreon to help creators build communities",
{'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
("PewDiePie smashes YouTube record",
{'entities': [(____, ____, 'WEBSITE')]}),
("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans",
{'entities': [(____, ___, 'WEBSITE')]}),
# And so on...
]