Entraîner un modèle spaCy à partir de zéro

spaCy propose une approche très simple et efficace pour entraîner vos propres modèles. Dans cet exercice, vous allez entraîner un modèle de NER à partir de zéro sur un corpus réel (données CORD-19).

Les données d’entraînement sont déjà au bon format dans training_data. Vous utiliserez une liste donnée de labels ("Pathogen", "MedicalCondition", "Medicine") stockée dans labels avec un modèle anglais vierge (nlp) contenant un composant NER. Les labels médicaux prévus seront ajoutés au pipeline NER, puis vous pourrez entraîner le modèle pendant une époque. Vous pouvez utiliser la classe Example pré-importée pour convertir les données d’entraînement au format requis. Pour suivre l’entraînement du modèle, vous pouvez ajouter une liste losses à la méthode .update() et consulter la fonction de perte d’entraînement.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

Créez un modèle spaCy vierge et ajoutez un composant NER au modèle.
Désactivez les autres composants du pipeline, utilisez l’objet optimizer créé et mettez à jour les poids du modèle en convertissant les données au format Example.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a blank English model, add NER component, add given labels to the ner pipeline
nlp = spacy.____("____")
ner = nlp.____("ner")
for ent in labels:
    ner.add_label(ent)

# Disable other pipeline components, complete training loop and run training loop
other_pipes = [____ for pipe in nlp.____ if ____ != "____"]
nlp.disable_pipes(*____)
losses = {}
optimizer = nlp.begin_training()
for text, annotation in training_data:
    doc = nlp.____(text)
    example = Example.____(doc, annotation)
    nlp.____([example], sgd=____, losses=losses)
    print(losses)

Modifier et exécuter le code

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Ce chapitre vous présentera le NLP, quelques-uns de ses cas d’usage comme la reconnaissance d’entités nommées et les chatbots dopés à l’IA. Vous apprendrez à utiliser la puissante bibliothèque spaCy pour réaliser diverses tâches de traitement du langage naturel comme la tokenisation, la segmentation en phrases, l’étiquetage morpho-syntaxique (POS) et la reconnaissance d’entités nommées.

Exercise 1: Bases du Natural Language Processing (NLP)Exercise 2: Conteneur Doc dans spaCy Exercise 3: Cas d’usage du NER Exercise 4: Tokenisation avec spaCy Exercise 5: Notions de base de spaCy Exercise 6: Exécuter un pipeline spaCy Exercise 7: Lemmatisation avec spaCy Exercise 8: Segmentation en phrases avec spaCy Exercise 9: Caractéristiques linguistiques dans spaCy Exercise 10: Étiquetage POS avec spaCy Exercise 11: Reconnaissance d’entités nommées (NER) avec spaCy Exercise 12: Traitement de texte avec spaCy

Découvrez les caractéristiques linguistiques, les vecteurs de mots, la similarité sémantique, les analogies et les opérations sur les vecteurs. Dans ce chapitre, vous verrez comment utiliser spaCy pour extraire des vecteurs de mots, catégoriser des textes liés à un sujet donné et trouver des termes sémantiquement proches de mots fournis, à partir d’un corpus ou du vocabulaire d’un modèle spaCy.

Exercise 1: Caractéristiques linguistiques Exercise 2: Annotations linguistiques dans spaCy Exercise 3: Désambiguïsation du sens des mots avec spaCy Exercise 4: Analyse en dépendances avec spaCy Exercise 5: Introduction aux vecteurs de mots Exercise 6: Vocabulaire spaCy Exercise 7: Vecteurs de mots dans le vocabulaire de spaCy Exercise 8: Vecteurs de mots et spaCy Exercise 9: Analogies et opérations sur les vecteurs Exercise 10: Projection de vecteurs de mots Exercise 11: Mots similaires dans un vocabulaire Exercise 12: Mesurer la similarité sémantique avec spaCy Exercise 13: Similarité de Doc avec spaCy Exercise 14: Similarité de spans avec spaCy Exercise 15: Similarité sémantique pour catégoriser du texte

Familiarisez-vous avec les composants de pipeline de spaCy, comment ajouter un composant de pipeline et analyser le pipeline NLP. Vous apprendrez également plusieurs approches d’extraction d’information à base de règles en utilisant les classes EntityRuler, Matcher et PhraseMatcher de spaCy ainsi que le module RegEx de Python.

Exercise 1: Pipelines spaCy Exercise 2: Ajouter des composants (pipes) dans spaCy Exercise 3: Analyser des pipelines dans spaCy Exercise 4: EntityRuler de spaCy Exercise 5: EntityRuler avec un modèle spaCy vierge Exercise 6: EntityRuler pour la NER Exercise 7: EntityRuler avec plusieurs motifs dans spaCy Exercise 8: RegEx avec spaCy Exercise 9: RegEx en Python Exercise 10: RegEx avec EntityRuler dans spaCy Exercise 11: Matcher et PhraseMatcher de spaCy Exercise 12: Faire correspondre un terme unique dans spaCy Exercise 13: PhraseMatcher dans spaCy Exercise 14: Appariement avec la syntaxe étendue dans spaCy

Explorez plusieurs cas d’usage réels où les modèles spaCy peuvent échouer et apprenez à les réentraîner pour améliorer leurs performances. Vous serez initié aux étapes d’entraînement de spaCy et comprendrez comment entraîner un modèle spaCy existant ou depuis zéro, puis évaluer le modèle au moment de l’inférence.

Exercise 1: Personnaliser les modèles spaCy Exercise 2: Entraîner des modèles spaCy Exercise 3: Performance du modèle sur vos données Exercise 4: Format des données d’entraînement spaCy Exercise 5: Étapes d’entraînement Exercise 6: Annotation et préparation des données d’entraînement Exercise 7: Données d’entraînement compatibles Exercise 8: Entraîner avec spaCy Exercise 9: Étapes de préparation à l’entraînement Exercise 10: Entraîner un modèle NER existant Exercise 11: Entraîner un modèle spaCy à partir de zéro

Exercice en cours

Exercise 12: Récapitulatif