CommencerCommencer gratuitement

Tokeniser le discours de Gettysburg

Dans cet exercice, vous allez tokeniser l’un des discours les plus célèbres de tous les temps : le discours de Gettysburg prononcé par le président américain Abraham Lincoln durant la guerre de Sécession.

L’intégralité du discours est disponible dans une chaîne appelée gettysburg.

Cet exercice fait partie du cours

Feature Engineering pour le NLP en Python

Afficher le cours

Instructions

  • Chargez le modèle en_core_web_sm à l’aide de spacy.load().
  • Créez un objet Doc doc pour la chaîne gettysburg.
  • À l’aide d’une compréhension de liste, itérez sur doc pour générer les textes des jetons.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import spacy

# Load the en_core_web_sm model
nlp = ____.____(____)

# Create a Doc object
doc = ____(____)

# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)
Modifier et exécuter le code