Segmentation en phrases avec spaCy
Dans cet exercice, vous allez pratiquer la segmentation en phrases. En NLP, découper un document en phrases est une opération de base très utile. C’est l’une des premières étapes de nombreuses tâches NLP plus avancées, comme la détection d’entités nommées. De plus, connaître le nombre de phrases peut donner un aperçu de la quantité d’information fournie par le texte.
Vous avez accès à dix critiques culinaires dans la liste appelée texts.
Le modèle en_core_web_sm a déjà été chargé pour vous sous le nom nlp.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Exécutez le modèle
spaCysur chaque élément de la listetextspour obtenirdocuments, une liste de tous les conteneursDoc. - Extrayez les phrases de chaque conteneur
docen itérant sur la listedocumentset ajoutez-les à une liste appeléesentences. - Comptez le nombre de phrases dans chaque conteneur
docen utilisant la listesentences.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])