Visualizar y comparar word embeddings

Los word embeddings tienen muchas dimensiones, por lo que no es fácil interpretarlos directamente. En este ejercicio, proyectarás varios vectores de palabras a 2D usando Análisis de Componentes Principales (PCA) y los visualizarás. Esto ayuda a revelar agrupaciones semánticas o similitudes entre palabras en el espacio de embedding. Después, compararás las representaciones de dos modelos: glove-wiki-gigaword-50, disponible en la variable model_glove_wiki, y glove-twitter-25, disponible en model_glove_twitter.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

words = ["lion", "tiger", "leopard", "banana", "strawberry", "truck", "car", "bus"]

# Extract word embeddings
word_vectors = [____[____] for word in words]

# Reduce dimensions with PCA
pca = PCA(n_components=2)
word_vectors_2d = pca.____(____)

plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])
for word, (x, y) in zip(words, word_vectors_2d):
    plt.annotate(word, (x, y))
plt.title("GloVe Wikipedia Word Embeddings (2D PCA)")
plt.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Aprende lo esencial del procesamiento de texto en Natural Language Processing (NLP). Domina técnicas como la tokenización, la eliminación de stop words y puntuación, y la normalización del texto con conversión a minúsculas, stemming y lematización para preparar los datos de texto de cara a un análisis posterior y a la extracción de insights.

Exercise 1: Introducción al procesamiento del lenguaje natural Exercise 2: Tokenización de oraciones y palabras Exercise 3: Flujo de trabajo de NLP Exercise 4: Gestión de stop words y puntuación Exercise 5: Eliminar stop words Exercise 6: Eliminar signos de puntuación Exercise 7: Técnicas de normalización de texto Exercise 8: Conversión a minúsculas Exercise 9: Stemming Exercise 10: Lematización

Transforma texto en bruto en potentes características numéricas. Crea representaciones Bag-of-Words y TF-IDF para capturar la importancia de las palabras entre documentos, y luego explora embeddings de palabras como Word2Vec y GloVe para descubrir patrones semánticos profundos. Visualiza frecuencia, relevancia y similitud para dar vida a tus datos de texto.

Exercise 1: Representación Bag-of-Words Exercise 2: Construir el vocabulario a partir de reseñas de clientes Exercise 3: Transformar texto en números con BoW Exercise 4: Análisis de frecuencia de reseñas de productos Exercise 5: Visualizar frecuencias de palabras Exercise 6: Vectorización TF-IDF Exercise 7: Representación TF-IDF de opiniones de producto Exercise 8: Comparando las representaciones BoW y TF-IDF Exercise 9: Embeddings Exercise 10: Explora relaciones entre palabras con embeddings Exercise 11: Visualizar y comparar word embeddings

Ejercicio actual

Aprovecha la potencia de modelos preentrenados para realizar tareas avanzadas de clasificación de texto. Usa pipelines de Hugging Face para análisis de sentimiento, clasificación por temas e inferencia de lenguaje natural. Evalúa la similitud semántica y la corrección gramatical con modelos de última generación, sin tener que construir nada desde cero.

Exercise 1: Pipelines de Hugging Face para análisis de sentimiento Exercise 2: Analizar el sentimiento de una reseña Exercise 3: Clasificar múltiples reseñas por lotes Exercise 4: Comparar modelos con datos de reseñas etiquetados Exercise 5: Clasificación zero-shot y QNLI Exercise 6: Clasificación zero-shot de tickets de soporte Exercise 7: ¿El texto responde a la pregunta?Exercise 8: Similitud de preguntas y corrección gramatical Exercise 9: Detectar preguntas duplicadas Exercise 10: Comprobación de la corrección gramatical

Sumérgete en el núcleo de las aplicaciones modernas de NLP con técnicas de clasificación por tokens y generación de texto. Aprende a extraer entidades y estructuras gramaticales relevantes usando NER y etiquetado PoS. Domina el question answering extractivo y abstractivo, y explora tareas avanzadas de generación como el resumen, la traducción y el modelado del lenguaje con pipelines de Hugging Face.

Exercise 1: Clasificación de tokens Exercise 2: Identificar entidades con nombre en titulares de noticias Exercise 3: Etiquetado gramatical (Part of Speech) para análisis de texto Exercise 4: Preguntas y respuestas Exercise 5: Responder preguntas a partir de descripciones de productos Exercise 6: Generar respuestas naturales con QA abstractiva Exercise 7: Tareas de generación de secuencias Exercise 8: Resumir artículos de noticias para obtener ideas rápidas Exercise 9: Traducir reseñas de clientes al francés Exercise 10: Crear un sistema de autocompletado de búsquedas Exercise 11: ¡Enhorabuena!