Semua tentang stop word
Sering kali ada kata-kata yang muncul sering tetapi memberikan sedikit informasi. Ini disebut stop word, dan Anda mungkin ingin menghapusnya dari analisis. Beberapa stop word bahasa Inggris yang umum mencakup "I", "she'll", "the", dan lain-lain. Dalam paket tm, ada 174 stop word bahasa Inggris umum (Anda akan mencetaknya dalam latihan ini!)
Saat melakukan analisis, kemungkinan Anda perlu menambah daftar ini. Pada contoh cuitan kopi kita, semua cuitan berisi "coffee", sehingga penting untuk mengeluarkan kata tersebut selain stop word umum. Membiarkan "coffee" tetap ada tidak menambah wawasan dan akan membuatnya terlalu ditekankan dalam analisis frekuensi.
Menggunakan fungsi c() memungkinkan Anda menambahkan kata baru ke daftar stop word. Misalnya, berikut ini akan menambahkan "word1" dan "word2" ke daftar stop word bahasa Inggris bawaan:
all_stops <- c("word1", "word2", stopwords("en"))
Setelah Anda memiliki daftar stop word yang masuk akal, Anda akan menggunakan fungsi removeWords() pada teks Anda. removeWords() menerima dua argumen: objek text yang akan diproses dan daftar kata yang akan dihapus.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Tinjau stop word standar dengan memanggil
stopwords("en"). - Hapus stop word "en" dari
text. - Tambahkan "coffee" dan "bean" ke stop word standar, simpan sebagai
new_stops. - Hapus stop word yang telah disesuaikan,
new_stops, daritext.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
## text is preloaded into your workspace
# List standard English stop words
___
# Print text without standard stop words
removeWords(___, ___("___"))
# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)
# Remove stop words from text
___