MulaiMulai sekarang secara gratis

Analisis frekuensi ulasan produk

Sekarang Anda memiliki akses ke himpunan data yang lebih besar berisi ulasan produk TechZone. Seperti sebelumnya, Anda sudah melakukan praproses dan mengubah ulasan menjadi representasi BoW X. Tugas Anda sekarang adalah menganalisis frekuensi kata dan mengidentifikasi istilah yang paling umum dalam himpunan data.

Untuk membantu analisis, disediakan fungsi pembantu bernama get_top_ten(). Fungsi ini menerima daftar kata dan jumlah kemunculannya masing-masing, lalu mengembalikan 10 kata teratas yang paling sering muncul beserta jumlahnya.

Latihan ini adalah bagian dari kursus

Natural Language Processing (NLP) in Python

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)
Edit dan Jalankan Kode