MulaiMulai sekarang secara gratis

Hapus stop word dan spasi tambahan

Sebuah korpus teks biasanya berisi banyak kata umum seperti "a", "an", "the", "of", dan "but". Dalam pemrosesan bahasa alami, ini disebut stop word.

Stop word biasanya dihapus selama pemrosesan teks agar kita dapat fokus pada kata-kata yang lebih penting dalam korpus untuk memperoleh wawasan.

Selain itu, spasi tambahan yang muncul saat menghapus karakter khusus, tanda baca, angka, dan stop word perlu dihapus dari korpus.

Korpus yang Anda buat pada latihan sebelumnya sudah dimuat sebagai twt_corpus_lwr.

Pustaka tm telah dimuat untuk latihan ini.

Latihan ini adalah bagian dari kursus

Menganalisis Data Media Sosial dengan R

Lihat Kursus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)
Edit dan Jalankan Kode