MulaiMulai sekarang secara gratis

Stop words dan word cloud

Sekarang Anda sudah berorientasi pada text mining, sambil menikmati segelas chardonnay, saatnya menggali lebih dalam. Pada word cloud terakhir, "chardonnay" mendominasi visual. Dominasinya begitu kuat hingga Anda tidak bisa menangkap wawasan menarik lainnya.

Mari ubah stop words agar mencakup "chardonnay" untuk melihat kata-kata lain yang umum tetapi sebelumnya tenggelam.

Workspace Anda memiliki versi tweet tentang chardonnay yang sudah dibersihkan, namun sekarang mari kita hapus beberapa istilah yang kurang informatif. Latihan ini menggunakan content() untuk memperlihatkan satu tweet tertentu sebagai perbandingan. Ingat untuk menggunakan dua kurung siku saat melakukan indeks pada daftar korpus.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Terapkan content() pada dokumen ke-24 di chardonnay_corp.
  • Tambahkan "chardonnay" ke stopwords bahasa Inggris, dan simpan sebagai stops.
  • Periksa enam kata terakhir dalam stops.
  • Buat cleaned_chardonnay_corp dengan tm_map() dengan memasukkan chardonnay_corp, fungsi removeWords(), dan terakhir stopwords, stops.
  • Sekarang periksa kembali content dari tweet 24 untuk membandingkan hasilnya.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Review a "cleaned" tweet
___(___)

# Add to stopwords
stops <- c(stopwords(kind = 'en'), '___')

# Review last 6 stopwords 
tail(stops)

# Apply to a corpus
cleaned_chardonnay_corp <- ___(chardonnay_corp, ___, ___)

# Review a "cleaned" tweet again
content(cleaned_chardonnay_corp[[24]])
Edit dan Jalankan Kode