CommencerCommencer gratuitement

Analyse de fréquence des avis produits

Vous avez maintenant accès à un jeu de données plus large d'avis sur les produits TechZone. Comme précédemment, vous avez prétraité les avis et les avez transformés en une représentation BoW X. Votre objectif est maintenant d’analyser les fréquences des mots et d’identifier les termes les plus courants du jeu de données.

Pour vous aider, une fonction utilitaire appelée get_top_ten() est fournie. Elle prend en entrée une liste de mots et leurs occurrences correspondantes, et renvoie les 10 mots les plus fréquents ainsi que leurs comptes.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Modifier et exécuter le code