Jadikan vektor sebagai objek VCorpus (2)
Sekarang setelah kita mengonversi vektor menjadi objek Source, kita meneruskannya ke fungsi tm lainnya, VCorpus(), untuk membuat volatile corpus. Cukup langsung, bukan?
Objek VCorpus adalah list bersarang atau list dari list. Pada setiap indeks objek VCorpus, terdapat objek PlainTextDocument, yaitu list yang memuat data teks sebenarnya (content), serta beberapa metadata terkait (meta). Akan membantu jika Anda memvisualisasikan objek VCorpus untuk mempermudah pemahaman keseluruhannya.
Untuk meninjau satu objek dokumen (yang ke-10), lakukan subset dengan kurung siku ganda.
coffee_corpus[[10]]
Untuk meninjau teks sebenarnya, Anda mengindeks list dua kali. Untuk mengakses metadata dokumen, seperti cap waktu, ubah [1] menjadi [2]. Cara lain untuk meninjau teks biasa adalah dengan fungsi content(), yang tidak memerlukan set kurung siku kedua.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Panggil fungsi
VCorpus()pada objekcoffee_sourceuntuk membuatcoffee_corpus. - Verifikasi bahwa
coffee_corpusadalah objekVCorpusdengan mencetaknya ke konsol. - Cetak elemen ke-15 dari
coffee_corpuske konsol untuk memverifikasi bahwa itu adalahPlainTextDocumentyang berisi konten dan metadata dari tweet ke-15. Gunakan subset dengan kurung siku ganda. - Cetak konten dari tweet ke-15 dalam
coffee_corpus. Gunakan kurung siku ganda untuk memilih tweet yang tepat, diikuti kurung siku tunggal untuk mengekstrak konten tweet tersebut. - Cetak
content()dari tweet ke-10 di dalamcoffee_corpus
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])