MulaiMulai sekarang secara gratis

Jadikan vektor sebagai objek VCorpus (2)

Sekarang setelah kita mengonversi vektor menjadi objek Source, kita meneruskannya ke fungsi tm lainnya, VCorpus(), untuk membuat volatile corpus. Cukup langsung, bukan?

Objek VCorpus adalah list bersarang atau list dari list. Pada setiap indeks objek VCorpus, terdapat objek PlainTextDocument, yaitu list yang memuat data teks sebenarnya (content), serta beberapa metadata terkait (meta). Akan membantu jika Anda memvisualisasikan objek VCorpus untuk mempermudah pemahaman keseluruhannya.

Untuk meninjau satu objek dokumen (yang ke-10), lakukan subset dengan kurung siku ganda.

coffee_corpus[[10]]

Untuk meninjau teks sebenarnya, Anda mengindeks list dua kali. Untuk mengakses metadata dokumen, seperti cap waktu, ubah [1] menjadi [2]. Cara lain untuk meninjau teks biasa adalah dengan fungsi content(), yang tidak memerlukan set kurung siku kedua.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Panggil fungsi VCorpus() pada objek coffee_source untuk membuat coffee_corpus.
  • Verifikasi bahwa coffee_corpus adalah objek VCorpus dengan mencetaknya ke konsol.
  • Cetak elemen ke-15 dari coffee_corpus ke konsol untuk memverifikasi bahwa itu adalah PlainTextDocument yang berisi konten dan metadata dari tweet ke-15. Gunakan subset dengan kurung siku ganda.
  • Cetak konten dari tweet ke-15 dalam coffee_corpus. Gunakan kurung siku ganda untuk memilih tweet yang tepat, diikuti kurung siku tunggal untuk mengekstrak konten tweet tersebut.
  • Cetak content() dari tweet ke-10 di dalam coffee_corpus

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Edit dan Jalankan Kode