CommencerCommencez gratuitement

Tokenisation avec spaCy

Dans cet exercice, vous allez vous entraîner à tokeniser du texte. Vous utiliserez le premier avis du jeu de données Amazon Fine Food Reviews. Vous pouvez y accéder via l’objet text fourni.

Le modèle en_core_web_sm est déjà chargé pour vous. Vous pouvez l’appeler avec nlp(). Vous pouvez utiliser une compréhension de liste pour construire les listes de sortie.

Cet exercice fait partie du cours

<cours>Traitement du langage naturel avec spaCy</cours>
Voir le cours

Instructions de l’exercice

  • Stockez le conteneur Doc pour l’avis préchargé dans un objet document.
  • Stockez et examinez les textes de tous les tokens du document dans la variable first_text_tokens.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Modifier et exécuter le code