Construir el vocabulario a partir de reseñas de clientes

Formas parte del equipo de analítica de producto en TechZone, una empresa de electrónica de consumo. Has recibido un pequeño lote de reseñas de clientes sobre un nuevo gadget. Para analizarlas, primero vas a preprocesar el texto y construir un vocabulario: una lista de palabras únicas que define las características usadas para representar cada reseña como datos numéricos.

La función preprocess() ya está cargada. Convierte el texto a minúsculas, lo tokeniza y elimina la puntuación.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

Instrucciones del ejercicio

Preprocesa cada reseña del conjunto de datos usando la función preprocess().
Ajusta el vectorizer con las reseñas preprocesadas.
Imprime el vocabulario resultante.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Aprende lo esencial del procesamiento de texto en Natural Language Processing (NLP). Domina técnicas como la tokenización, la eliminación de stop words y puntuación, y la normalización del texto con conversión a minúsculas, stemming y lematización para preparar los datos de texto de cara a un análisis posterior y a la extracción de insights.

Exercise 1: Introducción al procesamiento del lenguaje natural Exercise 2: Tokenización de oraciones y palabras Exercise 3: Flujo de trabajo de NLP Exercise 4: Gestión de stop words y puntuación Exercise 5: Eliminar stop words Exercise 6: Eliminar signos de puntuación Exercise 7: Técnicas de normalización de texto Exercise 8: Conversión a minúsculas Exercise 9: Stemming Exercise 10: Lematización

Transforma texto en bruto en potentes características numéricas. Crea representaciones Bag-of-Words y TF-IDF para capturar la importancia de las palabras entre documentos, y luego explora embeddings de palabras como Word2Vec y GloVe para descubrir patrones semánticos profundos. Visualiza frecuencia, relevancia y similitud para dar vida a tus datos de texto.

Exercise 1: Representación Bag-of-Words Exercise 2: Construir el vocabulario a partir de reseñas de clientes

Ejercicio actual

Exercise 3: Transformar texto en números con BoW Exercise 4: Análisis de frecuencia de reseñas de productos Exercise 5: Visualizar frecuencias de palabras Exercise 6: Vectorización TF-IDF Exercise 7: Representación TF-IDF de opiniones de producto Exercise 8: Comparando las representaciones BoW y TF-IDF Exercise 9: Embeddings Exercise 10: Explora relaciones entre palabras con embeddings Exercise 11: Visualizar y comparar word embeddings

Aprovecha la potencia de modelos preentrenados para realizar tareas avanzadas de clasificación de texto. Usa pipelines de Hugging Face para análisis de sentimiento, clasificación por temas e inferencia de lenguaje natural. Evalúa la similitud semántica y la corrección gramatical con modelos de última generación, sin tener que construir nada desde cero.

Exercise 1: Pipelines de Hugging Face para análisis de sentimiento Exercise 2: Analizar el sentimiento de una reseña Exercise 3: Clasificar múltiples reseñas por lotes Exercise 4: Comparar modelos con datos de reseñas etiquetados Exercise 5: Clasificación zero-shot y QNLI Exercise 6: Clasificación zero-shot de tickets de soporte Exercise 7: ¿El texto responde a la pregunta?Exercise 8: Similitud de preguntas y corrección gramatical Exercise 9: Detectar preguntas duplicadas Exercise 10: Comprobación de la corrección gramatical

Sumérgete en el núcleo de las aplicaciones modernas de NLP con técnicas de clasificación por tokens y generación de texto. Aprende a extraer entidades y estructuras gramaticales relevantes usando NER y etiquetado PoS. Domina el question answering extractivo y abstractivo, y explora tareas avanzadas de generación como el resumen, la traducción y el modelado del lenguaje con pipelines de Hugging Face.

Exercise 1: Clasificación de tokens Exercise 2: Identificar entidades con nombre en titulares de noticias Exercise 3: Etiquetado gramatical (Part of Speech) para análisis de texto Exercise 4: Preguntas y respuestas Exercise 5: Responder preguntas a partir de descripciones de productos Exercise 6: Generar respuestas naturales con QA abstractiva Exercise 7: Tareas de generación de secuencias Exercise 8: Resumir artículos de noticias para obtener ideas rápidas Exercise 9: Traducir reseñas de clientes al francés Exercise 10: Crear un sistema de autocompletado de búsquedas Exercise 11: ¡Enhorabuena!