Añadir componentes (pipes) en spaCy
A menudo usas un modelo de spaCy existente para distintas tareas de NLP. Sin embargo, en algunos casos, un componente de la canalización estándar, como la segmentación de oraciones, puede tardar mucho en producir los resultados esperados. En este ejercicio, practicarás cómo añadir un componente de canalización a un modelo de spaCy (canalización de procesamiento de texto).
Usarás las cinco primeras reseñas del conjunto de datos Amazon Fine Food Reviews para este ejercicio. Puedes acceder a estas reseñas usando la cadena texts.
El paquete spaCy ya está importado para que lo uses.
Este ejercicio forma parte del curso
Procesamiento del Lenguaje Natural con spaCy
Instrucciones del ejercicio
- Carga un modelo en blanco de
spaCypara inglés y añade un componentesentencizeral modelo. - Crea un contenedor
Docparatexts, crea una lista para almacenar lassentencesdel documento dado e imprime su número de oraciones. - Imprime la lista de tokens de la segunda oración de la lista
sentences.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")
# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")
# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])