Stop words dan word cloud
Sekarang Anda sudah berorientasi pada text mining, sambil menikmati segelas chardonnay, saatnya menggali lebih dalam. Pada word cloud terakhir, "chardonnay" mendominasi visual. Dominasinya begitu kuat hingga Anda tidak bisa menangkap wawasan menarik lainnya.
Mari ubah stop words agar mencakup "chardonnay" untuk melihat kata-kata lain yang umum tetapi sebelumnya tenggelam.
Workspace Anda memiliki versi tweet tentang chardonnay yang sudah dibersihkan, namun sekarang mari kita hapus beberapa istilah yang kurang informatif. Latihan ini menggunakan content() untuk memperlihatkan satu tweet tertentu sebagai perbandingan. Ingat untuk menggunakan dua kurung siku saat melakukan indeks pada daftar korpus.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Terapkan
content()pada dokumen ke-24 dichardonnay_corp. - Tambahkan
"chardonnay"ke stopwords bahasa Inggris, dan simpan sebagaistops. - Periksa enam kata terakhir dalam
stops. - Buat
cleaned_chardonnay_corpdengantm_map()dengan memasukkanchardonnay_corp, fungsiremoveWords(), dan terakhir stopwords,stops. - Sekarang periksa kembali
contentdari tweet24untuk membandingkan hasilnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Review a "cleaned" tweet
___(___)
# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')
# Review last 6 stopwords
tail(stops)
# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)
# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])