Segmentación de oraciones con spaCy
En este ejercicio, vas a practicar la segmentación de oraciones. En NLP, dividir un documento en sus oraciones es una operación básica muy útil. Es uno de los primeros pasos en muchas tareas de NLP más complejas, como la detección de entidades con nombre. Además, capturar el número de oraciones puede dar pistas sobre la cantidad de información que aporta el texto.
Tienes diez reseñas de comida en la lista llamada texts.
El modelo en_core_web_sm ya se ha cargado como nlp y .
Este ejercicio forma parte del curso
Procesamiento del Lenguaje Natural con spaCy
Instrucciones del ejercicio
- Ejecuta el modelo de
spaCysobre cada elemento de la listatextspara compilardocuments, una lista con todos los contenedoresDoc. - Extrae las oraciones de cada contenedor
dociterando por la listadocumentsy añádelas a una lista llamadasentences. - Cuenta el número de oraciones en cada contenedor
docusando la listasentences.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]
# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
sentences.append([s for s in ____.____])
# Find number of sentences per each doc container
print([len(____) for s in sentences])