CommencerCommencer gratuitement

Segmentation en phrases avec spaCy

Dans cet exercice, vous allez pratiquer la segmentation en phrases. En NLP, découper un document en phrases est une opération de base très utile. C’est l’une des premières étapes de nombreuses tâches NLP plus avancées, comme la détection d’entités nommées. De plus, connaître le nombre de phrases peut donner un aperçu de la quantité d’information fournie par le texte.

Vous avez accès à dix critiques culinaires dans la liste appelée texts.

Le modèle en_core_web_sm a déjà été chargé pour vous sous le nom nlp.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

  • Exécutez le modèle spaCy sur chaque élément de la liste texts pour obtenir documents, une liste de tous les conteneurs Doc.
  • Extrayez les phrases de chaque conteneur doc en itérant sur la liste documents et ajoutez-les à une liste appelée sentences.
  • Comptez le nombre de phrases dans chaque conteneur doc en utilisant la liste sentences.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Modifier et exécuter le code