MulaiMulai sekarang secara gratis

Istilah yang sering muncul dengan tm

Sekarang setelah Anda tahu cara membuat term-document matrix, serta transposenya, document-term matrix, kita akan menggunakannya sebagai dasar analisis. Untuk menganalisisnya, kita perlu mengubahnya menjadi matriks sederhana, seperti yang kita lakukan di bab 1 menggunakan as.matrix().

Memanggil rowSums() pada matriks yang baru Anda buat akan mengakumulasikan semua istilah yang digunakan dalam suatu bagian teks. Setelah Anda memiliki rowSums(), Anda dapat sort() hasilnya dengan decreasing = TRUE, sehingga Anda dapat berfokus pada istilah yang paling umum.

Terakhir, Anda dapat membuat barplot() dari 5 istilah teratas dari term_frequency dengan kode berikut.

barplot(term_frequency[1:5], col = "#C0DE25")

Tentu saja, Anda bisa mengikuti kursus ggplot2 kami untuk mempelajari cara menyesuaikan plot lebih lanjut… :)

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat coffee_m sebagai matriks menggunakan term-document matrix coffee_tdm dari bab sebelumnya.
  • Buat term_frequency menggunakan fungsi rowSums() pada coffee_m.
  • Urutkan term_frequency secara menurun dan simpan hasilnya ke dalam term_frequency.
  • Gunakan subset tanda kurung siku tunggal, yaitu hanya satu [, untuk mencetak 10 istilah teratas dari term_frequency.
  • Buat barplot untuk 10 istilah teratas.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

## coffee_tdm is still loaded in your workspace

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Calculate the row sums of coffee_m
term_frequency <- ___

# Sort term_frequency in decreasing order
term_frequency <- ___

# View the top 10 most common words
___

# Plot a barchart of the 10 most common words
___(___, col = "tan", las = 2)
Edit dan Jalankan Kode