Tokenisation avec spaCy
Dans cet exercice, vous allez vous entraîner à tokeniser du texte. Vous utiliserez le premier avis du jeu de données Amazon Fine Food Reviews. Vous pouvez y accéder via l’objet text fourni.
Le modèle en_core_web_sm est déjà chargé pour vous. Vous pouvez l’appeler avec nlp(). Vous pouvez utiliser une compréhension de liste pour construire les listes de sortie.
Cet exercice fait partie du cours
<cours>Traitement du langage naturel avec spaCy</cours>Instructions de l’exercice
- Stockez le conteneur Doc pour l’avis préchargé dans un objet
document. - Stockez et examinez les textes de tous les tokens du
documentdans la variablefirst_text_tokens.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")