BaşlayınÜcretsiz Başlayın

Ürün yorumlarının frekans analizi

Artık TechZone ürün yorumlarından oluşan daha büyük bir veri kümesine erişimin var. Daha önce olduğu gibi, yorumları ön işledin ve BoW temsiline X olarak dönüştürdün. Görevin şimdi kelime frekanslarını analiz etmek ve veri kümesindeki en yaygın terimleri belirlemek.

Analize yardımcı olmak için get_top_ten() adlı bir yardımcı fonksiyon sağlandı. Bu fonksiyon, bir kelime listesi ile bunlara karşılık gelen sayımları alır ve en sık geçen 10 kelimeyi ve sayımlarını döndürür.

Bu egzersiz

Python ile Natural Language Processing (NLP)

kursunun bir parçasıdır
Kursu Görüntüle

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Kodu Düzenle ve Çalıştır