ComenzarEmpieza gratis

Análisis de frecuencia de reseñas de productos

Ahora tienes acceso a un conjunto de datos más grande de reseñas de productos de TechZone. Como antes, ya has preprocesado y transformado las reseñas a una representación BoW X. Tu tarea ahora es analizar las frecuencias de palabras e identificar los términos más comunes del conjunto de datos.

Para ayudarte en el análisis, se proporciona una función auxiliar llamada get_top_ten(). Recibe una lista de palabras y sus recuentos correspondientes, y devuelve las 10 palabras más frecuentes y sus recuentos.

Este ejercicio forma parte del curso

Natural Language Processing (NLP) en Python

Ver curso

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Editar y ejecutar código