Añadir componentes (pipes) en spaCy

A menudo usas un modelo de spaCy existente para distintas tareas de NLP. Sin embargo, en algunos casos, un componente de la canalización estándar, como la segmentación de oraciones, puede tardar mucho en producir los resultados esperados. En este ejercicio, practicarás cómo añadir un componente de canalización a un modelo de spaCy (canalización de procesamiento de texto).

Usarás las cinco primeras reseñas del conjunto de datos Amazon Fine Food Reviews para este ejercicio. Puedes acceder a estas reseñas usando la cadena texts.

El paquete spaCy ya está importado para que lo uses.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Instrucciones del ejercicio

Carga un modelo en blanco de spaCy para inglés y añade un componente sentencizer al modelo.
Crea un contenedor Doc para texts, crea una lista para almacenar las sentences del documento dado e imprime su número de oraciones.
Imprime la lista de tokens de la segunda oración de la lista sentences.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Load a blank spaCy English model and add a sentencizer component
nlp = spacy.____("en")
nlp.____("sentencizer")

# Create Doc containers, store sentences and print its number of sentences
doc = ____
sentences = [____ for s in ____]
print("Number of sentences: ", len(____), "\n")

# Print the list of tokens in the second sentence
print("Second sentence tokens: ", [____ for ____ in sentences[1]])

Editar y ejecutar código

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo te presentaremos el NLP, algunos de sus casos de uso como el reconocimiento de entidades con nombre y los chatbots con IA. Aprenderás a usar la potente biblioteca spaCy para realizar diversas tareas de procesamiento del lenguaje natural, como tokenización, segmentación de oraciones, etiquetado POS y reconocimiento de entidades con nombre.

Exercise 1: Fundamentos de Natural Language Processing (NLP)Exercise 2: Contenedor Doc en spaCy Exercise 3: Caso de uso de NER Exercise 4: Tokenización con spaCy Exercise 5: Conceptos básicos de spaCy Exercise 6: Ejecutar una canalización de spaCy Exercise 7: Lematización con spaCy Exercise 8: Segmentación de oraciones con spaCy Exercise 9: Características lingüísticas en spaCy Exercise 10: Etiquetado POS con spaCy Exercise 11: NER con spaCy Exercise 12: Procesamiento de texto con spaCy

Aprende sobre características lingüísticas, vectores de palabras, similitud semántica, analogías y operaciones con vectores de palabras. En este capítulo descubrirás cómo usar spaCy para extraer vectores de palabras, categorizar textos relevantes para un tema dado y encontrar términos semánticamente similares a palabras dadas a partir de un corpus o del vocabulario de un modelo de spaCy.

Exercise 1: Rasgos lingüísticos Exercise 2: Anotaciones lingüísticas en spaCy Exercise 3: Desambiguación del sentido de las palabras con spaCy Exercise 4: Análisis de dependencias con spaCy Exercise 5: Introducción a los vectores de palabras Exercise 6: Vocabulario de spaCy Exercise 7: Vectores de palabras en el vocabulario de spaCy Exercise 8: Vectores de palabras y spaCy Exercise 9: Analogías y operaciones con vectores Exercise 10: Proyección de vectores de palabras Exercise 11: Palabras similares en un vocabulario Exercise 12: Medir la similitud semántica con spaCy Exercise 13: Similitud de Doc con spaCy Exercise 14: Similitud de spans con spaCy Exercise 15: Similitud semántica para categorizar texto

Familiarízate con los componentes de la canalización de spaCy, cómo añadir un componente y cómo analizar la canalización de NLP. También aprenderás varios enfoques para la extracción de información basada en reglas usando las clases EntityRuler, Matcher y PhraseMatcher de spaCy y el paquete RegEx de Python.

Exercise 1: Pipelines de spaCy Exercise 2: Añadir componentes (pipes) en spaCy

Ejercicio actual

Exercise 3: Analizar canalizaciones en spaCy Exercise 4: EntityRuler de spaCy Exercise 5: EntityRuler con un modelo en blanco de spaCy Exercise 6: EntityRuler para NER Exercise 7: EntityRuler con múltiples patrones en spaCy Exercise 8: RegEx con spaCy Exercise 9: RegEx en Python Exercise 10: RegEx con EntityRuler en spaCy Exercise 11: Matcher y PhraseMatcher de spaCy Exercise 12: Hacer match de un término único en spaCy Exercise 13: PhraseMatcher en spaCy Exercise 14: Emparejamiento con sintaxis extendida en spaCy

Explora múltiples casos de uso reales en los que los modelos de spaCy pueden fallar y aprende a seguir entrenándolos para mejorar su rendimiento. Te presentaremos los pasos de entrenamiento de spaCy y comprenderás cómo entrenar un modelo de spaCy existente o desde cero, y cómo evaluar el modelo en la fase de inferencia.

Exercise 1: Personalizar modelos de spaCy Exercise 2: Entrenar modelos de spaCy Exercise 3: Rendimiento del modelo en tus datos Exercise 4: Formato de datos de entrenamiento de spaCy Exercise 5: Pasos de entrenamiento Exercise 6: Anotación y preparación de datos de entrenamiento Exercise 7: Datos de entrenamiento compatibles Exercise 8: Entrenamiento con spaCy Exercise 9: Pasos de preparación del entrenamiento Exercise 10: Entrenar un modelo NER existente Exercise 11: Entrenar un modelo de spaCy desde cero Exercise 12: Resumen