ComenzarEmpieza gratis

Segmentación de oraciones con spaCy

En este ejercicio, vas a practicar la segmentación de oraciones. En NLP, dividir un documento en sus oraciones es una operación básica muy útil. Es uno de los primeros pasos en muchas tareas de NLP más complejas, como la detección de entidades con nombre. Además, capturar el número de oraciones puede dar pistas sobre la cantidad de información que aporta el texto.

Tienes diez reseñas de comida en la lista llamada texts.

El modelo en_core_web_sm ya se ha cargado como nlp y .

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Ver curso

Instrucciones del ejercicio

  • Ejecuta el modelo de spaCy sobre cada elemento de la lista texts para compilar documents, una lista con todos los contenedores Doc.
  • Extrae las oraciones de cada contenedor doc iterando por la lista documents y añádelas a una lista llamada sentences.
  • Cuenta el número de oraciones en cada contenedor doc usando la lista sentences.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])
Editar y ejecutar código