Bandingkan & bedakan stacked bar chart
Cara lain untuk mengiris teks Anda adalah dengan memahami seberapa besar porsi dokumen terdiri atas kata-kata positif atau negatif. Misalnya, sebuah ulasan restoran mungkin memiliki aspek positif seperti "the food was good" namun kemudian menambahkan "the restaurant was dirty, the staff was rude and parking was awful." Akibatnya, Anda mungkin ingin mengetahui seberapa besar porsi dokumen yang didedikasikan untuk bahasa positif vs. negatif. Dalam contoh ini, persentase negatif akan lebih tinggi dibandingkan positif.
Salah satu metodenya adalah melakukan count() untuk kata-kata positif dan negatif lalu membaginya dengan jumlah kata subjektivitas yang teridentifikasi. Pada contoh ulasan restoran, "good" dihitung sebagai 1 positif dan "dirty," "rude," serta "awful" dihitung sebagai 3 istilah negatif. Perhitungan sederhana akan membuat Anda menyimpulkan ulasan restoran tersebut 25% positif dan 75% negatif karena ada 4 istilah subjektivitas.
Mulailah dengan melakukan inner_join() pada kerangka data rapi terpadu yang berisi 4 buku, Agamemnon, Oz, Huck Finn, dan Moby Dick. Sama seperti latihan sebelumnya Anda akan menggunakan filter() dan grepl().
Untuk melakukan count() Anda harus mengelompokkan data berdasarkan buku lalu sentimen. Misalnya semua kata positif untuk Agamemnon harus dikelompokkan lalu dijumlahkan agar kata positif dari semua buku tidak tercampur. Untungnya, Anda dapat meneruskan beberapa variabel langsung ke count().
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Review tail of all_books
tail(all_books)
# Count by book & sentiment
books_sent_count <- all_books %>%
# Inner join to nrc lexicon
___(___, by = c("term" = "word")) %>%
# Keep only positive or negative
___(__("___", sentiment)) %>%
# Count by book and by sentiment
___(___, ___)
# Review entire object
books_sent_count