Tokenização com spaCy

Neste exercício, você vai praticar a tokenização de texto. Usaremos a primeira avaliação do conjunto de dados Amazon Fine Food Reviews. Você pode acessar essa avaliação usando o objeto text fornecido.

O modelo en_core_web_sm já está carregado para você. Você pode acessá-lo chamando nlp(). Você pode usar list comprehension para montar listas de saída.

Este exercicio faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercicio

Armazene o contêiner Doc da avaliação pré-carregada em um objeto document.
Armazene e revise os textos de todos os tokens do document na variável first_text_tokens.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")

Editar e Executar Código