MulaiMulai sekarang secara gratis

Menangkap metadata di tm

Bergantung pada tujuan Anda, Anda mungkin ingin menyimpan metadata tentang dokumen saat membuat korpus.

Untuk menangkap metadata tingkat dokumen, nama dan urutan kolom harus sebagai berikut:

  1. doc_id - string unik untuk setiap dokumen
  2. text - teks yang akan dianalisis
  3. ... - kolom lain apa pun akan secara otomatis dikatalogkan sebagai metadata.

Terkadang Anda perlu mengganti nama kolom agar sesuai dengan ekspektasi DataframeSource(). Fungsi names() berguna untuk hal ini.

tweets tersedia di ruang kerja Anda sebagai data frame dengan kolom "num", "text", "screenName", dan "created".

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Ganti nama kolom pertama tweets menjadi "doc_id".
  • Tetapkan skema dokumen dengan DataframeSource() pada data frame tweets yang lebih kecil.
  • Jadikan kumpulan dokumen sebagai korpus volatil yang di-nest di dalam fungsi kustom clean_corpus().
  • Terapkan content() pada tweet pertama dengan tanda kurung ganda seperti text_corpus[[1]] untuk melihat teks polos yang telah dibersihkan.
  • Konfirmasi bahwa semua metadata tertangkap menggunakan fungsi meta() pada dokumen pertama dengan tanda kurung tunggal.

Ingat, saat mengakses bagian dari korpus, tanda kurung ganda atau tunggal memberikan perbedaan! Untuk latihan ini, Anda akan menggunakan tanda kurung ganda dengan content() dan tanda kurung tunggal dengan meta().

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Edit dan Jalankan Kode