MulaiMulai sekarang secara gratis

Visualisasikan kata-kata yang tidak mirip

Misalkan Anda ingin memvisualisasikan kata-kata yang tidak sama. Untuk melakukannya, Anda juga dapat menggunakan comparison.cloud(), dan langkah-langkahnya cukup mirip dengan satu perbedaan utama.

Seperti saat Anda mencari kata-kata yang sama, Anda mulai dengan menyatukan tweet menjadi korpus yang berbeda dan menggabungkannya ke dalam objek VCorpus() tersendiri. Selanjutnya terapkan fungsi clean_corpus() dan susun menjadi TermDocumentMatrix.

Untuk melacak kata mana yang termasuk coffee versus chardonnay, Anda dapat menetapkan nama kolom TDM seperti ini:

colnames(all_tdm) <- c("chardonnay", "coffee")

Terakhir, konversi objek menjadi matriks menggunakan as.matrix() untuk digunakan dalam comparison.cloud(). Untuk setiap korpus berbeda yang diberikan ke comparison.cloud(), Anda dapat menentukan warna, seperti colors = c("red", "yellow", "green"), agar setiap bagian mudah dibedakan.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

all_corpus sudah dimuat di workspace Anda.

  • Buat all_clean dengan menerapkan fungsi clean_corpus yang telah disediakan pada all_corpus.
  • Buat all_tdm, sebuah TermDocumentMatrix, dari all_clean.
  • Gunakan colnames() untuk mengganti nama setiap korpus berbeda dalam all_tdm. Beri nama kolom pertama "coffee" dan kolom kedua "chardonnay".
  • Buat all_m dengan mengonversi all_tdm ke bentuk matriks.
  • Buat comparison.cloud() menggunakan all_m, dengan colors = c("orange", "blue") dan max.words = 50.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Clean the corpus
___ <- ___(___)

# Create all_tdm
___ <- ___(___)

# Give the columns distinct names
___(___) <- ___

# Create all_m
___ <- ___(___)

# Create comparison cloud
comparison.cloud(___, ___ = c("___", "___"), max.words = ___)
Edit dan Jalankan Kode