LoslegenKostenlos loslegen

Häufigkeitsanalyse von Produktbewertungen

Du hast jetzt Zugriff auf einen größeren Datensatz mit TechZone-Produktbewertungen. Wie zuvor hast du die Bewertungen vorverarbeitet und in eine BoW-Darstellung X umgewandelt. Deine Aufgabe ist es nun, die Worthäufigkeiten zu analysieren und die häufigsten Begriffe im Datensatz zu identifizieren.

Zur Unterstützung steht dir die Hilfsfunktion get_top_ten() zur Verfügung. Sie nimmt eine Liste von Wörtern und deren zugehörigen Häufigkeiten entgegen und gibt die 10 häufigsten Wörter samt ihrer Häufigkeiten zurück.

Diese Übung ist Teil des Kurses

Natural Language Processing (NLP) in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Code bearbeiten und ausführen