Analyse de fréquence des avis produits
Vous avez maintenant accès à un jeu de données plus large d'avis sur les produits TechZone. Comme précédemment, vous avez prétraité les avis et les avez transformés en une représentation BoW X. Votre objectif est maintenant d’analyser les fréquences des mots et d’identifier les termes les plus courants du jeu de données.
Pour vous aider, une fonction utilitaire appelée get_top_ten() est fournie. Elle prend en entrée une liste de mots et leurs occurrences correspondantes, et renvoie les 10 mots les plus fréquents ainsi que leurs comptes.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)