Adicionando componentes (pipes) no spaCy
Você costuma usar um modelo spaCy existente para diferentes tarefas de NLP. Porém, em alguns casos, um componente de pipeline pronto, como a segmentação de sentenças, pode demorar para produzir os resultados esperados. Neste exercício, você vai praticar como adicionar um componente de pipeline a um modelo spaCy (pipeline de processamento de texto).
Você usará as cinco primeiras avaliações do conjunto de dados Amazon Fine Food Reviews neste exercício. Você pode acessar essas avaliações usando a string texts.
O pacote spaCy já foi importado para você usar.
Este exercício faz parte do curso
Processamento de Linguagem Natural com spaCy
Instruções do exercício
- Carregue um modelo
spaCyde inglês em branco e adicione o componentesentencizerao modelo. - Crie um contêiner
Docparatexts, crie uma lista para armazenar assentencesdo documento e imprima a quantidade de sentenças. - Imprima a lista de tokens da segunda sentença da lista
sentences.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])