Menangkap metadata di tm
Bergantung pada tujuan Anda, Anda mungkin ingin menyimpan metadata tentang dokumen saat membuat korpus.
Untuk menangkap metadata tingkat dokumen, nama dan urutan kolom harus sebagai berikut:
doc_id- string unik untuk setiap dokumentext- teks yang akan dianalisis...- kolom lain apa pun akan secara otomatis dikatalogkan sebagai metadata.
Terkadang Anda perlu mengganti nama kolom agar sesuai dengan ekspektasi DataframeSource(). Fungsi names() berguna untuk hal ini.
tweets tersedia di ruang kerja Anda sebagai data frame dengan kolom "num", "text", "screenName", dan "created".
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Ganti nama kolom pertama
tweetsmenjadi "doc_id". - Tetapkan skema dokumen dengan
DataframeSource()pada data frametweetsyang lebih kecil. - Jadikan kumpulan dokumen sebagai korpus volatil yang di-nest di dalam fungsi kustom
clean_corpus(). - Terapkan
content()pada tweet pertama dengan tanda kurung ganda sepertitext_corpus[[1]]untuk melihat teks polos yang telah dibersihkan. - Konfirmasi bahwa semua metadata tertangkap menggunakan fungsi
meta()pada dokumen pertama dengan tanda kurung tunggal.
Ingat, saat mengakses bagian dari korpus, tanda kurung ganda atau tunggal memberikan perbedaan! Untuk latihan ini, Anda akan menggunakan tanda kurung ganda dengan content() dan tanda kurung tunggal dengan meta().
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])