Ajouter des composants (pipes) dans spaCy
Vous utilisez souvent un modèle spaCy existant pour différentes tâches de NLP. Cependant, dans certains cas, un composant standard du pipeline, comme la segmentation en phrases, peut prendre beaucoup de temps avant de produire les résultats attendus. Dans cet exercice, vous allez vous entraîner à ajouter un composant de pipeline à un modèle spaCy (pipeline de traitement de texte).
Vous utiliserez les cinq premiers avis du jeu de données Amazon Fine Food Reviews pour cet exercice. Vous pouvez accéder à ces avis via la chaîne de caractères texts.
Le package spaCy est déjà importé et prêt à l’emploi.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Chargez un modèle
spaCyanglais vide et ajoutez-lui un composantsentencizer. - Créez un conteneur
Docpourtexts, créez une liste pour stocker lessentencesdu document donné et affichez le nombre de phrases. - Affichez la liste des jetons de la deuxième phrase de la liste
sentences.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])