Representasi TF-IDF dari umpan balik produk

Anda bekerja dengan tim dukungan pelanggan di sebuah perusahaan smart home. Mereka mengumpulkan umpan balik pengguna pada berbagai perangkat pintar dan ingin mengidentifikasi kata-kata yang paling menonjol di setiap ulasan. Anda menyarankan menggunakan teknik TF-IDF untuk menyoroti istilah yang paling relevan di seluruh entri umpan balik. Mari bantu mereka memulai!

Fungsi preprocess() yang menerima teks dan mengembalikan teks yang telah diproses sudah disiapkan untuk Anda. Fungsi ini menerapkan pengubahan huruf kecil, tokenisasi, dan penghapusan tanda baca. Pandas telah diimpor sebagai pd, dan kelas TfidfVectorizer siap digunakan.

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

Instruksi latihan

Inisialisasi vectorizer TF-IDF.
Ubah ulasan yang sudah dibersihkan menjadi tfidf_matrix.
Buat DataFrame df untuk tfidf_matrix, dengan kata-kata kosakata sebagai kolom.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Pelajari dasar-dasar pemrosesan teks dalam Natural Language Processing (NLP). Kuasai teknik seperti tokenization, penghapusan stop word dan tanda baca, serta normalisasi teks dengan lowercasing, stemming, dan lemmatization untuk menyiapkan data teks bagi analisis lanjutan dan ekstraksi wawasan.

Exercise 1: Pengantar natural language processing Exercise 2: Tokenisasi kalimat dan kata Exercise 3: Alur kerja NLP Exercise 4: Penanganan stop words dan tanda baca Exercise 5: Menghapus stop words Exercise 6: Menghapus tanda baca Exercise 7: Teknik normalisasi teks Exercise 8: Mengubah ke huruf kecil Exercise 9: Stemming Exercise 10: Lematisasi

Ubah teks mentah menjadi fitur numerik yang kuat. Buat representasi Bag-of-Words dan TF-IDF untuk menangkap tingkat kepentingan kata di berbagai dokumen, lalu jelajahi word embeddings seperti Word2Vec dan GloVe untuk mengungkap pola semantik yang mendalam. Visualisasikan frekuensi, relevansi, dan kemiripan untuk menghidupkan data teks Anda.

Exercise 1: Representasi Bag-of-Words Exercise 2: Membangun kosakata dari ulasan pelanggan Exercise 3: Mengonversi teks menjadi angka dengan BoW Exercise 4: Analisis frekuensi ulasan produk Exercise 5: Memvisualisasikan frekuensi kata Exercise 6: Vektorisasi TF-IDF Exercise 7: Representasi TF-IDF dari umpan balik produk

Latihan Saat Ini

Exercise 8: Membandingkan representasi BoW dan TF-IDF Exercise 9: Embeddings Exercise 10: Mengeksplorasi relasi kata dengan embeddings Exercise 11: Memvisualisasikan dan membandingkan word embedding

Manfaatkan kekuatan model pra-latih untuk menjalankan tugas klasifikasi teks tingkat lanjut. Gunakan pipeline Hugging Face untuk analisis sentimen, klasifikasi topik, dan natural language inference. Evaluasi kemiripan semantik dan ketepatan gramatikal dengan model mutakhir, semuanya tanpa harus membangun dari nol.

Exercise 1: Pipeline Hugging Face untuk analisis sentimen Exercise 2: Menganalisis sentimen sebuah ulasan Exercise 3: Klasifikasi batch untuk beberapa ulasan Exercise 4: Membandingkan model pada data ulasan berlabel Exercise 5: Klasifikasi zero-shot dan QNLI Exercise 6: Klasifikasi zero-shot untuk tiket dukungan Exercise 7: Apakah teks tersebut menjawab pertanyaannya?Exercise 8: Kemiripan pertanyaan dan ketepatan tata bahasa Exercise 9: Mendeteksi pertanyaan duplikat Exercise 10: Memeriksa ketepatan tata bahasa

Selami inti aplikasi NLP modern dengan teknik klasifikasi token dan generasi teks. Pelajari cara mengekstrak entitas bermakna dan struktur gramatikal menggunakan NER dan PoS tagging. Kuasai question answering ekstraktif dan abstraktif, serta jelajahi tugas generasi lanjutan termasuk ringkasan, penerjemahan, dan pemodelan bahasa menggunakan pipeline Hugging Face.

Exercise 1: Klasifikasi token Exercise 2: Mengidentifikasi named entity dalam judul berita Exercise 3: Pelabelan Part of Speech untuk analisis teks Exercise 4: Question answering Exercise 5: Menjawab pertanyaan dari deskripsi produk Exercise 6: Menghasilkan jawaban natural dengan QA abstraktif Exercise 7: Tugas pembangkitan sekuens Exercise 8: Meringkas artikel berita untuk wawasan cepat Exercise 9: Menerjemahkan ulasan pelanggan ke bahasa Prancis Exercise 10: Membangun sistem pelengkapan pencarian Exercise 11: Selamat