Bandingkan & bedakan stacked bar chart

Cara lain untuk mengiris teks Anda adalah dengan memahami seberapa besar porsi dokumen terdiri atas kata-kata positif atau negatif. Misalnya, sebuah ulasan restoran mungkin memiliki aspek positif seperti "the food was good" namun kemudian menambahkan "the restaurant was dirty, the staff was rude and parking was awful." Akibatnya, Anda mungkin ingin mengetahui seberapa besar porsi dokumen yang didedikasikan untuk bahasa positif vs. negatif. Dalam contoh ini, persentase negatif akan lebih tinggi dibandingkan positif.

Salah satu metodenya adalah melakukan count() untuk kata-kata positif dan negatif lalu membaginya dengan jumlah kata subjektivitas yang teridentifikasi. Pada contoh ulasan restoran, "good" dihitung sebagai 1 positif dan "dirty," "rude," serta "awful" dihitung sebagai 3 istilah negatif. Perhitungan sederhana akan membuat Anda menyimpulkan ulasan restoran tersebut 25% positif dan 75% negatif karena ada 4 istilah subjektivitas.

Mulailah dengan melakukan inner_join() pada kerangka data rapi terpadu yang berisi 4 buku, Agamemnon, Oz, Huck Finn, dan Moby Dick. Sama seperti latihan sebelumnya Anda akan menggunakan filter() dan grepl().

Untuk melakukan count() Anda harus mengelompokkan data berdasarkan buku lalu sentimen. Misalnya semua kata positif untuk Agamemnon harus dikelompokkan lalu dijumlahkan agar kata positif dari semua buku tidak tercampur. Untungnya, Anda dapat meneruskan beberapa variabel langsung ke count().

Latihan ini merupakan bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Review tail of all_books
tail(all_books)

# Count by book & sentiment
books_sent_count <- all_books %>%
  # Inner join to nrc lexicon
  ___(___, by = c("term" = "word")) %>% 
  # Keep only positive or negative
  ___(__("___", sentiment)) %>% 
  # Count by book and by sentiment
  ___(___, ___)
  
# Review entire object
books_sent_count

Edit dan Jalankan Kode