Análisis de frecuencia de las reseñas de productos
Ahora tienes acceso a un conjunto de datos más amplio de reseñas de productos de TechZone. Al igual que antes, has preprocesado y transformado las reseñas en una representación BoW X
. Tu tarea ahora es analizar la frecuencia de las palabras e identificar los términos más comunes en el conjunto de datos.
Para ayudar con el análisis, se proporciona una función auxiliar llamada « get_top_ten()
». Toma una lista de palabras y sus recuentos correspondientes, y devuelve las 10 palabras más frecuentes y sus recuentos.
Este ejercicio forma parte del curso
Procesamiento del lenguaje natural (NLP) en Python
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)