Adicionando componentes (pipes) no spaCy

Você costuma usar um modelo spaCy existente para diferentes tarefas de NLP. Porém, em alguns casos, um componente de pipeline pronto, como a segmentação de sentenças, pode demorar para produzir os resultados esperados. Neste exercício, você vai praticar como adicionar um componente de pipeline a um modelo spaCy (pipeline de processamento de texto).

Você usará as cinco primeiras avaliações do conjunto de dados Amazon Fine Food Reviews neste exercício. Você pode acessar essas avaliações usando a string texts.

O pacote spaCy já foi importado para você usar.

Este exercicio faz parte do curso

Processamento de Linguagem Natural com spaCy

Ver curso

Instruções do exercicio

Carregue um modelo spaCy de inglês em branco e adicione o componente sentencizer ao modelo.
Crie um contêiner Doc para texts, crie uma lista para armazenar as sentences do documento e imprima a quantidade de sentenças.
Imprima a lista de tokens da segunda sentença da lista sentences.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])

Editar e Executar Código