ComeçarComece de graça

Tokenização com spaCy

Neste exercício, você vai praticar a tokenização de texto. Usaremos a primeira avaliação do conjunto de dados Amazon Fine Food Reviews. Você pode acessar essa avaliação usando o objeto text fornecido.

O modelo en_core_web_sm já está carregado para você. Você pode acessá-lo chamando nlp(). Você pode usar list comprehension para montar listas de saída.

Este exercício faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercício

  • Armazene o contêiner Doc da avaliação pré-carregada em um objeto document.
  • Armazene e revise os textos de todos os tokens do document na variável first_text_tokens.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create a Doc container of the given text
document = ____(____)
    
# Store and review the token text values of tokens for the Doc container
first_text_tokens = [____ for ____ in ____]
print("First text tokens:\n", first_text_tokens, "\n")
Editar e executar o código