Stemming

Sekarang setelah Anda membersihkan teks review dan menghapus stop word serta tanda baca, Anda siap menormalkan kata-kata yang tersisa menggunakan stemming untuk mereduksi kata ke bentuk dasarnya. Ini membantu mengelompokkan kata-kata serupa, sehingga analisis Anda menjadi lebih konsisten dan efisien.

Kelas PorterStemmer telah disediakan, bersama dengan daftar clean_tokens.

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

Instruksi latihan

Inisialisasi PorterStemmer().
Gunakan list comprehension untuk melakukan stemming pada setiap token dari daftar clean_tokens.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Pelajari dasar-dasar pemrosesan teks dalam Natural Language Processing (NLP). Kuasai teknik seperti tokenization, penghapusan stop word dan tanda baca, serta normalisasi teks dengan lowercasing, stemming, dan lemmatization untuk menyiapkan data teks bagi analisis lanjutan dan ekstraksi wawasan.

Exercise 1: Pengantar natural language processing Exercise 2: Tokenisasi kalimat dan kata Exercise 3: Alur kerja NLP Exercise 4: Penanganan stop words dan tanda baca Exercise 5: Menghapus stop words Exercise 6: Menghapus tanda baca Exercise 7: Teknik normalisasi teks Exercise 8: Mengubah ke huruf kecil Exercise 9: Stemming

Latihan Saat Ini

Exercise 10: Lematisasi

Ubah teks mentah menjadi fitur numerik yang kuat. Buat representasi Bag-of-Words dan TF-IDF untuk menangkap tingkat kepentingan kata di berbagai dokumen, lalu jelajahi word embeddings seperti Word2Vec dan GloVe untuk mengungkap pola semantik yang mendalam. Visualisasikan frekuensi, relevansi, dan kemiripan untuk menghidupkan data teks Anda.

Exercise 1: Representasi Bag-of-Words Exercise 2: Membangun kosakata dari ulasan pelanggan Exercise 3: Mengonversi teks menjadi angka dengan BoW Exercise 4: Analisis frekuensi ulasan produk Exercise 5: Memvisualisasikan frekuensi kata Exercise 6: Vektorisasi TF-IDF Exercise 7: Representasi TF-IDF dari umpan balik produk Exercise 8: Membandingkan representasi BoW dan TF-IDF Exercise 9: Embeddings Exercise 10: Mengeksplorasi relasi kata dengan embeddings Exercise 11: Memvisualisasikan dan membandingkan word embedding

Manfaatkan kekuatan model pra-latih untuk menjalankan tugas klasifikasi teks tingkat lanjut. Gunakan pipeline Hugging Face untuk analisis sentimen, klasifikasi topik, dan natural language inference. Evaluasi kemiripan semantik dan ketepatan gramatikal dengan model mutakhir, semuanya tanpa harus membangun dari nol.

Exercise 1: Pipeline Hugging Face untuk analisis sentimen Exercise 2: Menganalisis sentimen sebuah ulasan Exercise 3: Klasifikasi batch untuk beberapa ulasan Exercise 4: Membandingkan model pada data ulasan berlabel Exercise 5: Klasifikasi zero-shot dan QNLI Exercise 6: Klasifikasi zero-shot untuk tiket dukungan Exercise 7: Apakah teks tersebut menjawab pertanyaannya?Exercise 8: Kemiripan pertanyaan dan ketepatan tata bahasa Exercise 9: Mendeteksi pertanyaan duplikat Exercise 10: Memeriksa ketepatan tata bahasa

Selami inti aplikasi NLP modern dengan teknik klasifikasi token dan generasi teks. Pelajari cara mengekstrak entitas bermakna dan struktur gramatikal menggunakan NER dan PoS tagging. Kuasai question answering ekstraktif dan abstraktif, serta jelajahi tugas generasi lanjutan termasuk ringkasan, penerjemahan, dan pemodelan bahasa menggunakan pipeline Hugging Face.

Exercise 1: Klasifikasi token Exercise 2: Mengidentifikasi named entity dalam judul berita Exercise 3: Pelabelan Part of Speech untuk analisis teks Exercise 4: Question answering Exercise 5: Menjawab pertanyaan dari deskripsi produk Exercise 6: Menghasilkan jawaban natural dengan QA abstraktif Exercise 7: Tugas pembangkitan sekuens Exercise 8: Meringkas artikel berita untuk wawasan cepat Exercise 9: Menerjemahkan ulasan pelanggan ke bahasa Prancis Exercise 10: Membangun sistem pelengkapan pencarian Exercise 11: Selamat