Entraîner plusieurs libellés

Voici un petit extrait d’un jeu de données créé pour entraîner un nouveau type d’entité WEBSITE. Le jeu de données original contient plusieurs milliers de phrases. Dans cet exercice, vous allez faire l’annotation à la main. Dans la pratique, vous voudrez sans doute automatiser cela et utiliser un outil d’annotation – par exemple, Brat, une solution open source très populaire, ou Prodigy, notre propre outil d’annotation qui s’intègre à spaCy.

Après cet exercice, vous aurez presque terminé le cours ! Si vous l’avez apprécié, n’hésitez pas à envoyer un message de remerciement à Ines sur Twitter – elle l’appréciera ! Tweet to Ines

Cet exercice fait partie du cours

<cours>NLP avancé avec spaCy</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

TRAINING_DATA = [
    ("Reddit partners with Patreon to help creators build communities", 
     {'entities': [(____, ____, 'WEBSITE'), (____, ____, 'WEBSITE')]}),
  
    ("PewDiePie smashes YouTube record", 
     {'entities': [(____, ____, 'WEBSITE')]}),
  
    ("Reddit founder Alexis Ohanian gave away two Metallica tickets to fans", 
     {'entities': [(____, ___, 'WEBSITE')]}),
    # And so on...
]

Modifier et exécuter le code