Analisis frekuensi ulasan produk

Sekarang Anda memiliki akses ke himpunan data yang lebih besar berisi ulasan produk TechZone. Seperti sebelumnya, Anda sudah melakukan praproses dan mengubah ulasan menjadi representasi BoW X. Tugas Anda sekarang adalah menganalisis frekuensi kata dan mengidentifikasi istilah yang paling umum dalam himpunan data.

Untuk membantu analisis, disediakan fungsi pembantu bernama get_top_ten(). Fungsi ini menerima daftar kata dan jumlah kemunculannya masing-masing, lalu mengembalikan 10 kata teratas yang paling sering muncul beserta jumlahnya.

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

def preprocess(text):
    text = text.lower()
    tokens = word_tokenize(text)
    tokens = [word for word in tokens if word not in string.punctuation]
    return " ".join(tokens)
  
cleaned_reviews = [preprocess(review) for review in product_reviews]
X = vectorizer.fit_transform(cleaned_reviews)

# Get word counts
word_counts = np.____(X.____, axis=0)
# Get words
words = vectorizer.____

top_words_with_stopwords, top_counts_with_stopwords = get_top_ten(words, word_counts)
print(top_words_with_stopwords, top_counts_with_stopwords)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Pelajari dasar-dasar pemrosesan teks dalam Natural Language Processing (NLP). Kuasai teknik seperti tokenization, penghapusan stop word dan tanda baca, serta normalisasi teks dengan lowercasing, stemming, dan lemmatization untuk menyiapkan data teks bagi analisis lanjutan dan ekstraksi wawasan.

Exercise 1: Pengantar natural language processing Exercise 2: Tokenisasi kalimat dan kata Exercise 3: Alur kerja NLP Exercise 4: Penanganan stop words dan tanda baca Exercise 5: Menghapus stop words Exercise 6: Menghapus tanda baca Exercise 7: Teknik normalisasi teks Exercise 8: Mengubah ke huruf kecil Exercise 9: Stemming Exercise 10: Lematisasi

Ubah teks mentah menjadi fitur numerik yang kuat. Buat representasi Bag-of-Words dan TF-IDF untuk menangkap tingkat kepentingan kata di berbagai dokumen, lalu jelajahi word embeddings seperti Word2Vec dan GloVe untuk mengungkap pola semantik yang mendalam. Visualisasikan frekuensi, relevansi, dan kemiripan untuk menghidupkan data teks Anda.

Exercise 1: Representasi Bag-of-Words Exercise 2: Membangun kosakata dari ulasan pelanggan Exercise 3: Mengonversi teks menjadi angka dengan BoW Exercise 4: Analisis frekuensi ulasan produk

Latihan Saat Ini

Exercise 5: Memvisualisasikan frekuensi kata Exercise 6: Vektorisasi TF-IDF Exercise 7: Representasi TF-IDF dari umpan balik produk Exercise 8: Membandingkan representasi BoW dan TF-IDF Exercise 9: Embeddings Exercise 10: Mengeksplorasi relasi kata dengan embeddings Exercise 11: Memvisualisasikan dan membandingkan word embedding

Manfaatkan kekuatan model pra-latih untuk menjalankan tugas klasifikasi teks tingkat lanjut. Gunakan pipeline Hugging Face untuk analisis sentimen, klasifikasi topik, dan natural language inference. Evaluasi kemiripan semantik dan ketepatan gramatikal dengan model mutakhir, semuanya tanpa harus membangun dari nol.

Exercise 1: Pipeline Hugging Face untuk analisis sentimen Exercise 2: Menganalisis sentimen sebuah ulasan Exercise 3: Klasifikasi batch untuk beberapa ulasan Exercise 4: Membandingkan model pada data ulasan berlabel Exercise 5: Klasifikasi zero-shot dan QNLI Exercise 6: Klasifikasi zero-shot untuk tiket dukungan Exercise 7: Apakah teks tersebut menjawab pertanyaannya?Exercise 8: Kemiripan pertanyaan dan ketepatan tata bahasa Exercise 9: Mendeteksi pertanyaan duplikat Exercise 10: Memeriksa ketepatan tata bahasa

Selami inti aplikasi NLP modern dengan teknik klasifikasi token dan generasi teks. Pelajari cara mengekstrak entitas bermakna dan struktur gramatikal menggunakan NER dan PoS tagging. Kuasai question answering ekstraktif dan abstraktif, serta jelajahi tugas generasi lanjutan termasuk ringkasan, penerjemahan, dan pemodelan bahasa menggunakan pipeline Hugging Face.

Exercise 1: Klasifikasi token Exercise 2: Mengidentifikasi named entity dalam judul berita Exercise 3: Pelabelan Part of Speech untuk analisis teks Exercise 4: Question answering Exercise 5: Menjawab pertanyaan dari deskripsi produk Exercise 6: Menghasilkan jawaban natural dengan QA abstraktif Exercise 7: Tugas pembangkitan sekuens Exercise 8: Meringkas artikel berita untuk wawasan cepat Exercise 9: Menerjemahkan ulasan pelanggan ke bahasa Prancis Exercise 10: Membangun sistem pelengkapan pencarian Exercise 11: Selamat