Buat VCorpus dari sebuah data frame
Jika data teks Anda berada dalam sebuah data frame, Anda dapat menggunakan DataframeSource() untuk analisis. Data frame yang diberikan ke DataframeSource() harus memiliki struktur khusus:
- Kolom pertama harus bernama
doc_iddan berisi string unik untuk setiap baris. - Kolom kedua harus bernama
textdengan enkode "UTF-8" (umumnya standar). - Kolom lainnya, 3+, dianggap sebagai metadata dan akan dipertahankan sebagai metadata.
Latihan ini memperkenalkan meta() untuk mengekstrak metadata yang terkait dengan setiap dokumen. Sering kali data Anda memiliki metadata seperti penulis, tanggal, tag topik, atau lokasi yang dapat memperkaya analisis Anda. Setelah teks Anda menjadi sebuah korpus, Anda dapat menerapkan meta() untuk meninjau informasi tingkat dokumen tambahan.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
Di workspace Anda, terdapat data frame sederhana bernama example_text dengan nama kolom yang benar dan beberapa metadata. Juga ada vec_corpus yang merupakan korpus volatil yang dibuat dengan VectorSource()
- Buat
df_sourcemenggunakanDataframeSource()denganexample_text. - Buat
df_corpusdengan mengonversidf_sourcemenjadi objek korpus volatile menggunakanVCorpus(). - Cetak
df_corpus. Perhatikan berapa banyak dokumen yang dikandungnya dan jumlah poin metadata tingkat dokumen yang dipertahankan. - Gunakan
meta()padadf_corpusuntuk mencetak metadata yang terkait dengan dokumen. - Tinjau objek
vec_corpusyang sudah dimuat. Bandingkan jumlah dokumen dengandf_corpus. - Gunakan
meta()padavec_corpusuntuk membandingkan metadata apa pun yang ditemukan antaravec_corpusdandf_corpus.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___