ComeçarComece de graça

Adicionando componentes (pipes) no spaCy

Você costuma usar um modelo spaCy existente para diferentes tarefas de NLP. Porém, em alguns casos, um componente de pipeline pronto, como a segmentação de sentenças, pode demorar para produzir os resultados esperados. Neste exercício, você vai praticar como adicionar um componente de pipeline a um modelo spaCy (pipeline de processamento de texto).

Você usará as cinco primeiras avaliações do conjunto de dados Amazon Fine Food Reviews neste exercício. Você pode acessar essas avaliações usando a string texts.

O pacote spaCy já foi importado para você usar.

Este exercício faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercício

  • Carregue um modelo spaCy de inglês em branco e adicione o componente sentencizer ao modelo.
  • Crie um contêiner Doc para texts, crie uma lista para armazenar as sentences do documento e imprima a quantidade de sentenças.
  • Imprima a lista de tokens da segunda sentença da lista sentences.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Editar e executar o código