Tokeniser le discours de Gettysburg
Dans cet exercice, vous allez tokeniser l’un des discours les plus célèbres de tous les temps : le discours de Gettysburg prononcé par le président américain Abraham Lincoln durant la guerre de Sécession.
L’intégralité du discours est disponible dans une chaîne appelée gettysburg.
Cet exercice fait partie du cours
Feature Engineering pour le NLP en Python
Instructions
- Chargez le modèle
en_core_web_smà l’aide despacy.load(). - Créez un objet Doc
docpour la chaînegettysburg. - À l’aide d’une compréhension de liste, itérez sur
docpour générer les textes des jetons.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)