Análisis de frecuencia de reseñas de productos

Ahora tienes acceso a un conjunto de datos más grande de reseñas de productos de TechZone. Como antes, ya has preprocesado y transformado las reseñas a una representación BoW X. Tu tarea ahora es analizar las frecuencias de palabras e identificar los términos más comunes del conjunto de datos.

Para ayudarte en el análisis, se proporciona una función auxiliar llamada get_top_ten(). Recibe una lista de palabras y sus recuentos correspondientes, y devuelve las 10 palabras más frecuentes y sus recuentos.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)

Editar y ejecutar código

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

Aprende lo esencial del procesamiento de texto en Natural Language Processing (NLP). Domina técnicas como la tokenización, la eliminación de stop words y puntuación, y la normalización del texto con conversión a minúsculas, stemming y lematización para preparar los datos de texto de cara a un análisis posterior y a la extracción de insights.

Exercise 1: Introducción al procesamiento del lenguaje natural Exercise 2: Tokenización de oraciones y palabras Exercise 3: Flujo de trabajo de NLP Exercise 4: Gestión de stop words y puntuación Exercise 5: Eliminar stop words Exercise 6: Eliminar signos de puntuación Exercise 7: Técnicas de normalización de texto Exercise 8: Conversión a minúsculas Exercise 9: Stemming Exercise 10: Lematización

Transforma texto en bruto en potentes características numéricas. Crea representaciones Bag-of-Words y TF-IDF para capturar la importancia de las palabras entre documentos, y luego explora embeddings de palabras como Word2Vec y GloVe para descubrir patrones semánticos profundos. Visualiza frecuencia, relevancia y similitud para dar vida a tus datos de texto.

Exercise 1: Representación Bag-of-Words Exercise 2: Construir el vocabulario a partir de reseñas de clientes Exercise 3: Transformar texto en números con BoW Exercise 4: Análisis de frecuencia de reseñas de productos

Ejercicio actual

Exercise 5: Visualizar frecuencias de palabras Exercise 6: Vectorización TF-IDF Exercise 7: Representación TF-IDF de opiniones de producto Exercise 8: Comparando las representaciones BoW y TF-IDF Exercise 9: Embeddings Exercise 10: Explora relaciones entre palabras con embeddings Exercise 11: Visualizar y comparar word embeddings

Aprovecha la potencia de modelos preentrenados para realizar tareas avanzadas de clasificación de texto. Usa pipelines de Hugging Face para análisis de sentimiento, clasificación por temas e inferencia de lenguaje natural. Evalúa la similitud semántica y la corrección gramatical con modelos de última generación, sin tener que construir nada desde cero.

Exercise 1: Pipelines de Hugging Face para análisis de sentimiento Exercise 2: Analizar el sentimiento de una reseña Exercise 3: Clasificar múltiples reseñas por lotes Exercise 4: Comparar modelos con datos de reseñas etiquetados Exercise 5: Clasificación zero-shot y QNLI Exercise 6: Clasificación zero-shot de tickets de soporte Exercise 7: ¿El texto responde a la pregunta?Exercise 8: Similitud de preguntas y corrección gramatical Exercise 9: Detectar preguntas duplicadas Exercise 10: Comprobación de la corrección gramatical

Sumérgete en el núcleo de las aplicaciones modernas de NLP con técnicas de clasificación por tokens y generación de texto. Aprende a extraer entidades y estructuras gramaticales relevantes usando NER y etiquetado PoS. Domina el question answering extractivo y abstractivo, y explora tareas avanzadas de generación como el resumen, la traducción y el modelado del lenguaje con pipelines de Hugging Face.

Exercise 1: Clasificación de tokens Exercise 2: Identificar entidades con nombre en titulares de noticias Exercise 3: Etiquetado gramatical (Part of Speech) para análisis de texto Exercise 4: Preguntas y respuestas Exercise 5: Responder preguntas a partir de descripciones de productos Exercise 6: Generar respuestas naturales con QA abstractiva Exercise 7: Tareas de generación de secuencias Exercise 8: Resumir artículos de noticias para obtener ideas rápidas Exercise 9: Traducir reseñas de clientes al francés Exercise 10: Crear un sistema de autocompletado de búsquedas Exercise 11: ¡Enhorabuena!