Segmentación de oraciones con spaCy

En este ejercicio, vas a practicar la segmentación de oraciones. En NLP, dividir un documento en sus oraciones es una operación básica muy útil. Es uno de los primeros pasos en muchas tareas de NLP más complejas, como la detección de entidades con nombre. Además, capturar el número de oraciones puede dar pistas sobre la cantidad de información que aporta el texto.

Tienes diez reseñas de comida en la lista llamada texts.

El modelo en_core_web_sm ya se ha cargado como nlp y .

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Instrucciones del ejercicio

Ejecuta el modelo de spaCy sobre cada elemento de la lista texts para compilar documents, una lista con todos los contenedores Doc.
Extrae las oraciones de cada contenedor doc iterando por la lista documents y añádelas a una lista llamada sentences.
Cuenta el número de oraciones en cada contenedor doc usando la lista sentences.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Generating a documents list of all Doc containers
documents = [____(text) for text in texts]

# Iterate through documents and append sentences in each doc to the sentences list
sentences = []
for doc in documents:
  sentences.append([s for s in ____.____])
  
# Find number of sentences per each doc container
print([len(____) for s in sentences])

Editar y ejecutar código

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo te presentaremos el NLP, algunos de sus casos de uso como el reconocimiento de entidades con nombre y los chatbots con IA. Aprenderás a usar la potente biblioteca spaCy para realizar diversas tareas de procesamiento del lenguaje natural, como tokenización, segmentación de oraciones, etiquetado POS y reconocimiento de entidades con nombre.

Exercise 1: Fundamentos de Natural Language Processing (NLP)Exercise 2: Contenedor Doc en spaCy Exercise 3: Caso de uso de NER Exercise 4: Tokenización con spaCy Exercise 5: Conceptos básicos de spaCy Exercise 6: Ejecutar una canalización de spaCy Exercise 7: Lematización con spaCy Exercise 8: Segmentación de oraciones con spaCy

Ejercicio actual

Exercise 9: Características lingüísticas en spaCy Exercise 10: Etiquetado POS con spaCy Exercise 11: NER con spaCy Exercise 12: Procesamiento de texto con spaCy

Aprende sobre características lingüísticas, vectores de palabras, similitud semántica, analogías y operaciones con vectores de palabras. En este capítulo descubrirás cómo usar spaCy para extraer vectores de palabras, categorizar textos relevantes para un tema dado y encontrar términos semánticamente similares a palabras dadas a partir de un corpus o del vocabulario de un modelo de spaCy.

Exercise 1: Rasgos lingüísticos Exercise 2: Anotaciones lingüísticas en spaCy Exercise 3: Desambiguación del sentido de las palabras con spaCy Exercise 4: Análisis de dependencias con spaCy Exercise 5: Introducción a los vectores de palabras Exercise 6: Vocabulario de spaCy Exercise 7: Vectores de palabras en el vocabulario de spaCy Exercise 8: Vectores de palabras y spaCy Exercise 9: Analogías y operaciones con vectores Exercise 10: Proyección de vectores de palabras Exercise 11: Palabras similares en un vocabulario Exercise 12: Medir la similitud semántica con spaCy Exercise 13: Similitud de Doc con spaCy Exercise 14: Similitud de spans con spaCy Exercise 15: Similitud semántica para categorizar texto

Familiarízate con los componentes de la canalización de spaCy, cómo añadir un componente y cómo analizar la canalización de NLP. También aprenderás varios enfoques para la extracción de información basada en reglas usando las clases EntityRuler, Matcher y PhraseMatcher de spaCy y el paquete RegEx de Python.

Exercise 1: Pipelines de spaCy Exercise 2: Añadir componentes (pipes) en spaCy Exercise 3: Analizar canalizaciones en spaCy Exercise 4: EntityRuler de spaCy Exercise 5: EntityRuler con un modelo en blanco de spaCy Exercise 6: EntityRuler para NER Exercise 7: EntityRuler con múltiples patrones en spaCy Exercise 8: RegEx con spaCy Exercise 9: RegEx en Python Exercise 10: RegEx con EntityRuler en spaCy Exercise 11: Matcher y PhraseMatcher de spaCy Exercise 12: Hacer match de un término único en spaCy Exercise 13: PhraseMatcher en spaCy Exercise 14: Emparejamiento con sintaxis extendida en spaCy

Explora múltiples casos de uso reales en los que los modelos de spaCy pueden fallar y aprende a seguir entrenándolos para mejorar su rendimiento. Te presentaremos los pasos de entrenamiento de spaCy y comprenderás cómo entrenar un modelo de spaCy existente o desde cero, y cómo evaluar el modelo en la fase de inferencia.

Exercise 1: Personalizar modelos de spaCy Exercise 2: Entrenar modelos de spaCy Exercise 3: Rendimiento del modelo en tus datos Exercise 4: Formato de datos de entrenamiento de spaCy Exercise 5: Pasos de entrenamiento Exercise 6: Anotación y preparación de datos de entrenamiento Exercise 7: Datos de entrenamiento compatibles Exercise 8: Entrenamiento con spaCy Exercise 9: Pasos de preparación del entrenamiento Exercise 10: Entrenar un modelo NER existente Exercise 11: Entrenar un modelo de spaCy desde cero Exercise 12: Resumen