Analyse de la fréquence des avis sur les produits
Vous avez désormais accès à un ensemble plus complet de données issues des avis sur les produits TechZone. Comme précédemment, vous avez prétraité et transformé les avis en une représentation BoW X
. Votre tâche consiste maintenant à analyser la fréquence des mots et à identifier les termes les plus courants dans l'ensemble de données.
Pour faciliter l'analyse, une fonction d'aide appelée « get_top_ten()
» est fournie. Il prend en entrée une liste de mots et leur nombre d'occurrences, et renvoie les 10 mots les plus fréquents et leur nombre d'occurrences.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)