Häufigkeit, mit der Produktbewertungen vorkommen
Du hast jetzt Zugriff auf einen größeren Datensatz mit Produktbewertungen aus der TechZone. Genau wie vorher hast du die Bewertungen vorverarbeitet und in eine BoW-Darstellung umgewandelt X
. Jetzt musst du die Häufigkeit der Wörter analysieren und die häufigsten Begriffe im Datensatz herausfinden.
Um die Analyse zu erleichtern, gibt's eine Hilfsfunktion namens „ get_top_ten()
“. Es nimmt eine Liste von Wörtern und die dazugehörigen Häufigkeiten und gibt die 10 häufigsten Wörter und ihre Häufigkeiten zurück.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)