Visualisasikan kata-kata yang tidak mirip
Misalkan Anda ingin memvisualisasikan kata-kata yang tidak sama. Untuk melakukannya, Anda juga dapat menggunakan comparison.cloud(), dan langkah-langkahnya cukup mirip dengan satu perbedaan utama.
Seperti saat Anda mencari kata-kata yang sama, Anda mulai dengan menyatukan tweet menjadi korpus yang berbeda dan menggabungkannya ke dalam objek VCorpus() tersendiri. Selanjutnya terapkan fungsi clean_corpus() dan susun menjadi TermDocumentMatrix.
Untuk melacak kata mana yang termasuk coffee versus chardonnay, Anda dapat menetapkan nama kolom TDM seperti ini:
colnames(all_tdm) <- c("chardonnay", "coffee")
Terakhir, konversi objek menjadi matriks menggunakan as.matrix() untuk digunakan dalam comparison.cloud(). Untuk setiap korpus berbeda yang diberikan ke comparison.cloud(), Anda dapat menentukan warna, seperti colors = c("red", "yellow", "green"), agar setiap bagian mudah dibedakan.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
all_corpus sudah dimuat di workspace Anda.
- Buat
all_cleandengan menerapkan fungsiclean_corpusyang telah disediakan padaall_corpus. - Buat
all_tdm, sebuahTermDocumentMatrix, dariall_clean. - Gunakan
colnames()untuk mengganti nama setiap korpus berbeda dalamall_tdm. Beri nama kolom pertama "coffee" dan kolom kedua "chardonnay". - Buat
all_mdengan mengonversiall_tdmke bentuk matriks. - Buat
comparison.cloud()menggunakanall_m, dengancolors = c("orange", "blue")danmax.words = 50.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Clean the corpus
___ <- ___(___)
# Create all_tdm
___ <- ___(___)
# Give the columns distinct names
___(___) <- ___
# Create all_m
___ <- ___(___)
# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)