Hapus stop word dan spasi tambahan
Sebuah korpus teks biasanya berisi banyak kata umum seperti "a", "an", "the", "of", dan "but". Dalam pemrosesan bahasa alami, ini disebut stop word.
Stop word biasanya dihapus selama pemrosesan teks agar kita dapat fokus pada kata-kata yang lebih penting dalam korpus untuk memperoleh wawasan.
Selain itu, spasi tambahan yang muncul saat menghapus karakter khusus, tanda baca, angka, dan stop word perlu dihapus dari korpus.
Korpus yang Anda buat pada latihan sebelumnya sudah dimuat sebagai twt_corpus_lwr.
Pustaka tm telah dimuat untuk latihan ini.
Latihan ini adalah bagian dari kursus
Menganalisis Data Media Sosial dengan R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Remove English stop words from the corpus and view the corpus
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)