CommencerCommencer gratuitement

Ajouter des composants (pipes) dans spaCy

Vous utilisez souvent un modèle spaCy existant pour différentes tâches de NLP. Cependant, dans certains cas, un composant standard du pipeline, comme la segmentation en phrases, peut prendre beaucoup de temps avant de produire les résultats attendus. Dans cet exercice, vous allez vous entraîner à ajouter un composant de pipeline à un modèle spaCy (pipeline de traitement de texte).

Vous utiliserez les cinq premiers avis du jeu de données Amazon Fine Food Reviews pour cet exercice. Vous pouvez accéder à ces avis via la chaîne de caractères texts.

Le package spaCy est déjà importé et prêt à l’emploi.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

  • Chargez un modèle spaCy anglais vide et ajoutez-lui un composant sentencizer.
  • Créez un conteneur Doc pour texts, créez une liste pour stocker les sentences du document donné et affichez le nombre de phrases.
  • Affichez la liste des jetons de la deuxième phrase de la liste sentences.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Modifier et exécuter le code