Stop words dan word cloud
Sekarang Anda sudah berorientasi pada text mining, sambil menikmati segelas chardonnay, saatnya menggali lebih dalam. Pada word cloud terakhir, "chardonnay" mendominasi visual. Dominasinya begitu kuat hingga Anda tidak bisa menangkap wawasan menarik lainnya.
Mari ubah stop words agar mencakup "chardonnay" untuk melihat kata-kata lain yang umum tetapi sebelumnya tenggelam.
Workspace Anda memiliki versi tweet tentang chardonnay yang sudah dibersihkan, namun sekarang mari kita hapus beberapa istilah yang kurang informatif. Latihan ini menggunakan content() untuk memperlihatkan satu tweet tertentu sebagai perbandingan. Ingat untuk menggunakan dua kurung siku saat melakukan indeks pada daftar korpus.
Latihan ini merupakan bagian dari kursus
Text Mining dengan Bag-of-Words di R
Instruksi latihan
- Terapkan
content()pada dokumen ke-24 dichardonnay_corp. - Tambahkan
"chardonnay"ke stopwords bahasa Inggris, dan simpan sebagaistops. - Periksa enam kata terakhir dalam
stops. - Buat
cleaned_chardonnay_corpdengantm_map()dengan memasukkanchardonnay_corp, fungsiremoveWords(), dan terakhir stopwords,stops. - Sekarang periksa kembali
contentdari tweet24untuk membandingkan hasilnya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])