Tokenização com spaCy
Neste exercício, você vai praticar a tokenização de texto. Usaremos a primeira avaliação do conjunto de dados Amazon Fine Food Reviews. Você pode acessar essa avaliação usando o objeto text fornecido.
O modelo en_core_web_sm já está carregado para você. Você pode acessá-lo chamando nlp(). Você pode usar list comprehension para montar listas de saída.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Armazene o contêiner Doc da avaliação pré-carregada em um objeto
document. - Armazene e revise os textos de todos os tokens do
documentna variávelfirst_text_tokens.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create a Doc container of the given text
document = ____(____)
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")