Tokenizando o Discurso de Gettysburg
Neste exercício, você vai tokenizar um dos discursos mais famosos de todos os tempos: o Discurso de Gettysburg, proferido pelo presidente americano Abraham Lincoln durante a Guerra Civil dos Estados Unidos.
O discurso completo está disponível como uma string chamada gettysburg.
Este exercício faz parte do curso
Feature Engineering para NLP em Python
Instruções do exercício
- Carregue o modelo
en_core_web_smusandospacy.load(). - Crie um objeto Doc
docpara a stringgettysburg. - Usando list comprehension, percorra
docpara gerar os textos dos tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
import spacy
# Load the en_core_web_sm model
nlp = ____.____(____)
# Create a Doc object
doc = ____(____)
# Generate the tokens
tokens = [token.____ for token in ____]
print(tokens)