Semua tentang stop word

Sering kali ada kata-kata yang muncul sering tetapi memberikan sedikit informasi. Ini disebut stop word, dan Anda mungkin ingin menghapusnya dari analisis. Beberapa stop word bahasa Inggris yang umum mencakup "I", "she'll", "the", dan lain-lain. Dalam paket tm, ada 174 stop word bahasa Inggris umum (Anda akan mencetaknya dalam latihan ini!)

Saat melakukan analisis, kemungkinan Anda perlu menambah daftar ini. Pada contoh cuitan kopi kita, semua cuitan berisi "coffee", sehingga penting untuk mengeluarkan kata tersebut selain stop word umum. Membiarkan "coffee" tetap ada tidak menambah wawasan dan akan membuatnya terlalu ditekankan dalam analisis frekuensi.

Menggunakan fungsi c() memungkinkan Anda menambahkan kata baru ke daftar stop word. Misalnya, berikut ini akan menambahkan "word1" dan "word2" ke daftar stop word bahasa Inggris bawaan:

all_stops <- c("word1", "word2", stopwords("en"))

Setelah Anda memiliki daftar stop word yang masuk akal, Anda akan menggunakan fungsi removeWords() pada teks Anda. removeWords() menerima dua argumen: objek text yang akan diproses dan daftar kata yang akan dihapus.

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

Tinjau stop word standar dengan memanggil stopwords("en").
Hapus stop word "en" dari text.
Tambahkan "coffee" dan "bean" ke stop word standar, simpan sebagai new_stops.
Hapus stop word yang telah disesuaikan, new_stops, dari text.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

## text is preloaded into your workspace

# List standard English stop words
___

# Print text without standard stop words
removeWords(___, ___("___"))

# Add "coffee" and "bean" to the list: new_stops
new_stops <- c("___", "___", ___)

# Remove stop words from text
___

Edit dan Jalankan Kode