Istilah yang sering muncul dengan tm
Sekarang setelah Anda tahu cara membuat term-document matrix, serta transposenya, document-term matrix, kita akan menggunakannya sebagai dasar analisis. Untuk menganalisisnya, kita perlu mengubahnya menjadi matriks sederhana, seperti yang kita lakukan di bab 1 menggunakan as.matrix().
Memanggil rowSums() pada matriks yang baru Anda buat akan mengakumulasikan semua istilah yang digunakan dalam suatu bagian teks. Setelah Anda memiliki rowSums(), Anda dapat sort() hasilnya dengan decreasing = TRUE, sehingga Anda dapat berfokus pada istilah yang paling umum.
Terakhir, Anda dapat membuat barplot() dari 5 istilah teratas dari term_frequency dengan kode berikut.
barplot(term_frequency[1:5], col = "#C0DE25")
Tentu saja, Anda bisa mengikuti kursus ggplot2 kami untuk mempelajari cara menyesuaikan plot lebih lanjut… :)
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat
coffee_msebagai matriks menggunakan term-document matrixcoffee_tdmdari bab sebelumnya. - Buat
term_frequencymenggunakan fungsirowSums()padacoffee_m. - Urutkan
term_frequencysecara menurun dan simpan hasilnya ke dalamterm_frequency. - Gunakan subset tanda kurung siku tunggal, yaitu hanya satu
[, untuk mencetak 10 istilah teratas dariterm_frequency. - Buat barplot untuk 10 istilah teratas.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
## coffee_tdm is still loaded in your workspace
# Convert coffee_tdm to a matrix
coffee_m <- ___
# Calculate the row sums of coffee_m
term_frequency <- ___
# Sort term_frequency in decreasing order
term_frequency <- ___
# View the top 10 most common words
___
# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)