Tokenisation avec spaCy
Dans cet exercice, vous allez vous entraîner à tokeniser du texte. Vous utiliserez le premier avis du jeu de données Amazon Fine Food Reviews. Vous pouvez y accéder via l’objet text fourni.
Le modèle en_core_web_sm est déjà chargé pour vous. Vous pouvez l’appeler avec nlp(). Vous pouvez utiliser une compréhension de liste pour construire les listes de sortie.
Cet exercice fait partie du cours
Traitement du langage naturel avec spaCy
Instructions
- Stockez le conteneur Doc pour l’avis préchargé dans un objet
document. - Stockez et examinez les textes de tous les tokens du
documentdans la variablefirst_text_tokens.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")