CommencerCommencer gratuitement

Tokenisation avec spaCy

Dans cet exercice, vous allez vous entraîner à tokeniser du texte. Vous utiliserez le premier avis du jeu de données Amazon Fine Food Reviews. Vous pouvez y accéder via l’objet text fourni.

Le modèle en_core_web_sm est déjà chargé pour vous. Vous pouvez l’appeler avec nlp(). Vous pouvez utiliser une compréhension de liste pour construire les listes de sortie.

Cet exercice fait partie du cours

Traitement du langage naturel avec spaCy

Afficher le cours

Instructions

  • Stockez le conteneur Doc pour l’avis préchargé dans un objet document.
  • Stockez et examinez les textes de tous les tokens du document dans la variable first_text_tokens.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Modifier et exécuter le code