ComenzarEmpieza gratis

Añadir componentes (pipes) en spaCy

A menudo usas un modelo de spaCy existente para distintas tareas de NLP. Sin embargo, en algunos casos, un componente de la canalización estándar, como la segmentación de oraciones, puede tardar mucho en producir los resultados esperados. En este ejercicio, practicarás cómo añadir un componente de canalización a un modelo de spaCy (canalización de procesamiento de texto).

Usarás las cinco primeras reseñas del conjunto de datos Amazon Fine Food Reviews para este ejercicio. Puedes acceder a estas reseñas usando la cadena texts.

El paquete spaCy ya está importado para que lo uses.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Ver curso

Instrucciones del ejercicio

  • Carga un modelo en blanco de spaCy para inglés y añade un componente sentencizer al modelo.
  • Crea un contenedor Doc para texts, crea una lista para almacenar las sentences del documento dado e imprime su número de oraciones.
  • Imprime la lista de tokens de la segunda oración de la lista sentences.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])
Editar y ejecutar código