Traitement de texte avec spaCy
Toute application de NLP se compose de plusieurs étapes de traitement de texte. Vous avez déjà appris certaines de ces étapes, notamment la tokenisation, la lemmatisation, la segmentation en phrases et la reconnaissance d’entités nommées.
Dans cet exercice, vous allez continuer à vous entraîner aux étapes de traitement de texte avec spaCy, comme découper le texte en phrases et extraire les entités nommées. Vous utiliserez les cinq premières critiques du jeu de données Amazon Fine Food Reviews. Vous pouvez accéder à ces critiques via l’objet texts.
Le modèle en_core_web_sm a déjà été chargé et est accessible via nlp. La liste des conteneurs Doc pour chaque élément de texts est également préchargée et accessible via documents.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a list to store sentences of each Doc container in documents
sentences = [[____ for sent in doc.____] for doc in documents]
# Print number of sentences in each Doc container in documents
num_sentences = [len(____) for s in sentences]
print("Number of sentences in documents:\n", ____)