LoslegenKostenlos loslegen

Häufigkeit, mit der Produktbewertungen vorkommen

Du hast jetzt Zugriff auf einen größeren Datensatz mit Produktbewertungen aus der TechZone. Genau wie vorher hast du die Bewertungen vorverarbeitet und in eine BoW-Darstellung umgewandelt X. Jetzt musst du die Häufigkeit der Wörter analysieren und die häufigsten Begriffe im Datensatz herausfinden.

Um die Analyse zu erleichtern, gibt's eine Hilfsfunktion namens „ get_top_ten() “. Es nimmt eine Liste von Wörtern und die dazugehörigen Häufigkeiten und gibt die 10 häufigsten Wörter und ihre Häufigkeiten zurück.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Code bearbeiten und ausführen