Menghapus stop words
Anda sedang mengerjakan proyek yang bertujuan mengklasifikasikan masukan dari pengguna ke dalam kategori seperti "product issues", "service issues", dan "suggestions". Sering kali, stop words tidak banyak membantu dalam membedakan kategori. Tugas Anda adalah menghapus stop words tersebut agar fokus pada kata-kata penting yang nantinya membantu mesin mengategorikan masukan ke topik yang tepat.
Fungsi word_tokenize dari nltk.tokenize dan stopwords.words dari nltk.corpus telah diimpor untuk Anda. Selain itu, sumber daya NLTK punkt_tab dan stopwords juga sudah diunduh.
Latihan ini adalah bagian dari kursus
Natural Language Processing (NLP) in Python
Petunjuk latihan
- Tokenisasi masukan yang disediakan menjadi kata-kata.
- Dapatkan daftar stopwords bahasa Inggris.
- Hapus stop words bahasa Inggris dan simpan hasilnya di
filtered_tokens.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)