MulaiMulai sekarang secara gratis

Buat VCorpus dari sebuah data frame

Jika data teks Anda berada dalam sebuah data frame, Anda dapat menggunakan DataframeSource() untuk analisis. Data frame yang diberikan ke DataframeSource() harus memiliki struktur khusus:

  • Kolom pertama harus bernama doc_id dan berisi string unik untuk setiap baris.
  • Kolom kedua harus bernama text dengan enkode "UTF-8" (umumnya standar).
  • Kolom lainnya, 3+, dianggap sebagai metadata dan akan dipertahankan sebagai metadata.

Latihan ini memperkenalkan meta() untuk mengekstrak metadata yang terkait dengan setiap dokumen. Sering kali data Anda memiliki metadata seperti penulis, tanggal, tag topik, atau lokasi yang dapat memperkaya analisis Anda. Setelah teks Anda menjadi sebuah korpus, Anda dapat menerapkan meta() untuk meninjau informasi tingkat dokumen tambahan.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

Di workspace Anda, terdapat data frame sederhana bernama example_text dengan nama kolom yang benar dan beberapa metadata. Juga ada vec_corpus yang merupakan korpus volatil yang dibuat dengan VectorSource()

  • Buat df_source menggunakan DataframeSource() dengan example_text.
  • Buat df_corpus dengan mengonversi df_source menjadi objek korpus volatile menggunakan VCorpus().
  • Cetak df_corpus. Perhatikan berapa banyak dokumen yang dikandungnya dan jumlah poin metadata tingkat dokumen yang dipertahankan.
  • Gunakan meta() pada df_corpus untuk mencetak metadata yang terkait dengan dokumen.
  • Tinjau objek vec_corpus yang sudah dimuat. Bandingkan jumlah dokumen dengan df_corpus.
  • Gunakan meta() pada vec_corpus untuk membandingkan metadata apa pun yang ditemukan antara vec_corpus dan df_corpus.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Edit dan Jalankan Kode