Menghapus stop words

Anda sedang mengerjakan proyek yang bertujuan mengklasifikasikan masukan dari pengguna ke dalam kategori seperti "product issues", "service issues", dan "suggestions". Sering kali, stop words tidak banyak membantu dalam membedakan kategori. Tugas Anda adalah menghapus stop words tersebut agar fokus pada kata-kata penting yang nantinya membantu mesin mengategorikan masukan ke topik yang tepat.

Fungsi word_tokenize dari nltk.tokenize dan stopwords.words dari nltk.corpus telah diimpor untuk Anda. Selain itu, sumber daya NLTK punkt_tab dan stopwords juga sudah diunduh.

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

Instruksi latihan

Tokenisasi masukan yang disediakan menjadi kata-kata.
Dapatkan daftar stopwords bahasa Inggris.
Hapus stop words bahasa Inggris dan simpan hasilnya di filtered_tokens.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Natural Language Processing (NLP) in Python

SkillTag.level.intermediateSkillTag.label

4.9+

Mulai Kursus Gratis

Pelajari dasar-dasar pemrosesan teks dalam Natural Language Processing (NLP). Kuasai teknik seperti tokenization, penghapusan stop word dan tanda baca, serta normalisasi teks dengan lowercasing, stemming, dan lemmatization untuk menyiapkan data teks bagi analisis lanjutan dan ekstraksi wawasan.

Exercise 1: Pengantar natural language processing Exercise 2: Tokenisasi kalimat dan kata Exercise 3: Alur kerja NLP Exercise 4: Penanganan stop words dan tanda baca Exercise 5: Menghapus stop words

Latihan Saat Ini

Exercise 6: Menghapus tanda baca Exercise 7: Teknik normalisasi teks Exercise 8: Mengubah ke huruf kecil Exercise 9: Stemming Exercise 10: Lematisasi

Ubah teks mentah menjadi fitur numerik yang kuat. Buat representasi Bag-of-Words dan TF-IDF untuk menangkap tingkat kepentingan kata di berbagai dokumen, lalu jelajahi word embeddings seperti Word2Vec dan GloVe untuk mengungkap pola semantik yang mendalam. Visualisasikan frekuensi, relevansi, dan kemiripan untuk menghidupkan data teks Anda.

Exercise 1: Representasi Bag-of-Words Exercise 2: Membangun kosakata dari ulasan pelanggan Exercise 3: Mengonversi teks menjadi angka dengan BoW Exercise 4: Analisis frekuensi ulasan produk Exercise 5: Memvisualisasikan frekuensi kata Exercise 6: Vektorisasi TF-IDF Exercise 7: Representasi TF-IDF dari umpan balik produk Exercise 8: Membandingkan representasi BoW dan TF-IDF Exercise 9: Embeddings Exercise 10: Mengeksplorasi relasi kata dengan embeddings Exercise 11: Memvisualisasikan dan membandingkan word embedding

Manfaatkan kekuatan model pra-latih untuk menjalankan tugas klasifikasi teks tingkat lanjut. Gunakan pipeline Hugging Face untuk analisis sentimen, klasifikasi topik, dan natural language inference. Evaluasi kemiripan semantik dan ketepatan gramatikal dengan model mutakhir, semuanya tanpa harus membangun dari nol.

Exercise 1: Pipeline Hugging Face untuk analisis sentimen Exercise 2: Menganalisis sentimen sebuah ulasan Exercise 3: Klasifikasi batch untuk beberapa ulasan Exercise 4: Membandingkan model pada data ulasan berlabel Exercise 5: Klasifikasi zero-shot dan QNLI Exercise 6: Klasifikasi zero-shot untuk tiket dukungan Exercise 7: Apakah teks tersebut menjawab pertanyaannya?Exercise 8: Kemiripan pertanyaan dan ketepatan tata bahasa Exercise 9: Mendeteksi pertanyaan duplikat Exercise 10: Memeriksa ketepatan tata bahasa

Selami inti aplikasi NLP modern dengan teknik klasifikasi token dan generasi teks. Pelajari cara mengekstrak entitas bermakna dan struktur gramatikal menggunakan NER dan PoS tagging. Kuasai question answering ekstraktif dan abstraktif, serta jelajahi tugas generasi lanjutan termasuk ringkasan, penerjemahan, dan pemodelan bahasa menggunakan pipeline Hugging Face.

Exercise 1: Klasifikasi token Exercise 2: Mengidentifikasi named entity dalam judul berita Exercise 3: Pelabelan Part of Speech untuk analisis teks Exercise 4: Question answering Exercise 5: Menjawab pertanyaan dari deskripsi produk Exercise 6: Menghasilkan jawaban natural dengan QA abstraktif Exercise 7: Tugas pembangkitan sekuens Exercise 8: Meringkas artikel berita untuk wawasan cepat Exercise 9: Menerjemahkan ulasan pelanggan ke bahasa Prancis Exercise 10: Membangun sistem pelengkapan pencarian Exercise 11: Selamat