Analisis frekuensi ulasan produk
Sekarang Anda memiliki akses ke himpunan data yang lebih besar berisi ulasan produk TechZone. Seperti sebelumnya, Anda sudah melakukan praproses dan mengubah ulasan menjadi representasi BoW X. Tugas Anda sekarang adalah menganalisis frekuensi kata dan mengidentifikasi istilah yang paling umum dalam himpunan data.
Untuk membantu analisis, disediakan fungsi pembantu bernama get_top_ten(). Fungsi ini menerima daftar kata dan jumlah kemunculannya masing-masing, lalu mengembalikan 10 kata teratas yang paling sering muncul beserta jumlahnya.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
def preprocess(text):
text = text.lower()
tokens = word_tokenize(text)
tokens = [word for word in tokens if word not in string.punctuation]
return " ".join(tokens)
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)
# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____
top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)