LoslegenKostenlos starten

Häufigkeitsanalyse von Produktbewertungen

Du hast jetzt Zugriff auf einen größeren Datensatz mit TechZone-Produktbewertungen. Wie zuvor hast du die Bewertungen vorverarbeitet und in eine BoW-Darstellung X umgewandelt. Deine Aufgabe ist es nun, die Worthäufigkeiten zu analysieren und die häufigsten Begriffe im Datensatz zu identifizieren.

Zur Unterstützung steht dir die Hilfsfunktion get_top_ten() zur Verfügung. Sie nimmt eine Liste von Wörtern und deren zugehörigen Häufigkeiten entgegen und gibt die 10 häufigsten Wörter samt ihrer Häufigkeiten zurück.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Code bearbeiten und ausführen