Treemap untuk kelompok dokumen
Sering kali Anda akan bekerja dengan dokumen dalam kelompok, misalnya berdasarkan penulis, produk, atau perusahaan. Latihan ini memungkinkan Anda mempelajari teks sambil mempertahankan pengelompokan dalam visual yang ringkas. Sebagai contoh, dengan ulasan pelanggan yang dikelompokkan per produk, Anda mungkin ingin menelusuri beberapa dimensi ulasan pelanggan sekaligus. Pertama, Anda dapat menghitung polarity() dari ulasan. Dimensi lain bisa berupa panjang. Panjang dokumen dapat menunjukkan intensitas emosi. Jika seorang pelanggan menulis singkat "great shoes!", dapat diduga mereka sebenarnya kurang antusias dibandingkan ulasan positif yang lebih panjang. Anda juga mungkin ingin mengelompokkan ulasan berdasarkan jenis produk seperti sepatu wanita, pria, dan anak. Treemap memungkinkan Anda menelaah semua dimensi ini.
Untuk analisis teks, di dalam treemap setiap kotak merepresentasikan satu dokumen seperti tweet. Dokumen dikelompokkan dengan suatu cara, misalnya berdasarkan penulis. Ukuran setiap kotak ditentukan oleh nilai numerik seperti jumlah kata atau huruf. Warna tiap kotak ditentukan oleh skor sentimen.
Setelah Anda menata tibble, gunakan pustaka treemap yang berisi fungsi treemap() untuk membuat visualnya. Contoh kode di bawah ini menetapkan data, variabel pengelompokan, ukuran, warna, dan estetika lainnya.
treemap(
data_frame,
index = c("group", "individual_document"),
vSize = "doc_length",
vColor = "avg_score",
type = "value",
title = "Sentiment Scores by Doc",
palette = c("red", "white", "green")
)
Objek all_books yang telah dimuat berisi korpus gabungan berformat tidy dengan 4 buku Shakespeare, 3 Melville, dan 4 Twain. Berdasarkan treemap, Anda seharusnya dapat melihat siapa yang menulis buku lebih panjang, serta polaritas penulis secara keseluruhan dan untuk masing-masing buku.
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
book_length <- all_books %>%
# Count number of words per book
___(___)
# Examine the results
book_length