Similitud semántica para categorizar texto

El objetivo principal de la similitud semántica es medir la distancia entre los significados de un par de palabras, frases, oraciones o documentos. Por ejemplo, la palabra “car” es más similar a “bus” que a “cat”. En este ejercicio, vas a encontrar las oraciones más parecidas a la palabra sauce a partir de un texto de ejemplo de Amazon Fine Food Reviews. Puedes usar spacy para calcular la puntuación de similitud entre la palabra sauce y cualquiera de las oraciones de una cadena texts dada, y reportar la puntuación de la oración más similar.

Ya tienes precargada una cadena texts que contiene los datos Text de todas las reseñas. Para este ejercicio, usarás el modelo de inglés en_core_web_md, que ya está disponible como nlp.

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

Instrucciones del ejercicio

Usa nlp para generar contenedores Doc para la palabra sauce y para texts, y guárdalos en key y sentences, respectivamente.
Calcula las puntuaciones de similitud de la palabra sauce con cada oración de la cadena texts (redondeadas a dos decimales).

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Populate Doc containers for the word "sauce" and for "texts" string
key = ____
sentences = ____

# Calculate similarity score of each sentence and a Doc container for the word sauce
semantic_scores = []
for sent in sentences.____:
	semantic_scores.append({"score": round(sent.____(____), 2)})
print(semantic_scores)

Editar y ejecutar código

Este ejercicio forma parte del curso

Procesamiento del Lenguaje Natural con spaCy

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo te presentaremos el NLP, algunos de sus casos de uso como el reconocimiento de entidades con nombre y los chatbots con IA. Aprenderás a usar la potente biblioteca spaCy para realizar diversas tareas de procesamiento del lenguaje natural, como tokenización, segmentación de oraciones, etiquetado POS y reconocimiento de entidades con nombre.

Exercise 1: Fundamentos de Natural Language Processing (NLP)Exercise 2: Contenedor Doc en spaCy Exercise 3: Caso de uso de NER Exercise 4: Tokenización con spaCy Exercise 5: Conceptos básicos de spaCy Exercise 6: Ejecutar una canalización de spaCy Exercise 7: Lematización con spaCy Exercise 8: Segmentación de oraciones con spaCy Exercise 9: Características lingüísticas en spaCy Exercise 10: Etiquetado POS con spaCy Exercise 11: NER con spaCy Exercise 12: Procesamiento de texto con spaCy

Aprende sobre características lingüísticas, vectores de palabras, similitud semántica, analogías y operaciones con vectores de palabras. En este capítulo descubrirás cómo usar spaCy para extraer vectores de palabras, categorizar textos relevantes para un tema dado y encontrar términos semánticamente similares a palabras dadas a partir de un corpus o del vocabulario de un modelo de spaCy.

Exercise 1: Rasgos lingüísticos Exercise 2: Anotaciones lingüísticas en spaCy Exercise 3: Desambiguación del sentido de las palabras con spaCy Exercise 4: Análisis de dependencias con spaCy Exercise 5: Introducción a los vectores de palabras Exercise 6: Vocabulario de spaCy Exercise 7: Vectores de palabras en el vocabulario de spaCy Exercise 8: Vectores de palabras y spaCy Exercise 9: Analogías y operaciones con vectores Exercise 10: Proyección de vectores de palabras Exercise 11: Palabras similares en un vocabulario Exercise 12: Medir la similitud semántica con spaCy Exercise 13: Similitud de Doc con spaCy Exercise 14: Similitud de spans con spaCy Exercise 15: Similitud semántica para categorizar texto

Ejercicio actual

Familiarízate con los componentes de la canalización de spaCy, cómo añadir un componente y cómo analizar la canalización de NLP. También aprenderás varios enfoques para la extracción de información basada en reglas usando las clases EntityRuler, Matcher y PhraseMatcher de spaCy y el paquete RegEx de Python.

Exercise 1: Pipelines de spaCy Exercise 2: Añadir componentes (pipes) en spaCy Exercise 3: Analizar canalizaciones en spaCy Exercise 4: EntityRuler de spaCy Exercise 5: EntityRuler con un modelo en blanco de spaCy Exercise 6: EntityRuler para NER Exercise 7: EntityRuler con múltiples patrones en spaCy Exercise 8: RegEx con spaCy Exercise 9: RegEx en Python Exercise 10: RegEx con EntityRuler en spaCy Exercise 11: Matcher y PhraseMatcher de spaCy Exercise 12: Hacer match de un término único en spaCy Exercise 13: PhraseMatcher en spaCy Exercise 14: Emparejamiento con sintaxis extendida en spaCy

Explora múltiples casos de uso reales en los que los modelos de spaCy pueden fallar y aprende a seguir entrenándolos para mejorar su rendimiento. Te presentaremos los pasos de entrenamiento de spaCy y comprenderás cómo entrenar un modelo de spaCy existente o desde cero, y cómo evaluar el modelo en la fase de inferencia.

Exercise 1: Personalizar modelos de spaCy Exercise 2: Entrenar modelos de spaCy Exercise 3: Rendimiento del modelo en tus datos Exercise 4: Formato de datos de entrenamiento de spaCy Exercise 5: Pasos de entrenamiento Exercise 6: Anotación y preparación de datos de entrenamiento Exercise 7: Datos de entrenamiento compatibles Exercise 8: Entrenamiento con spaCy Exercise 9: Pasos de preparación del entrenamiento Exercise 10: Entrenar un modelo NER existente Exercise 11: Entrenar un modelo de spaCy desde cero Exercise 12: Resumen