Ulasan TM (I)
Dalam kursus Text Mining: Bag of Words Anda mempelajari bahwa korpus adalah sekumpulan teks, dan Anda juga mempelajari beberapa fungsi untuk prapemrosesan teks. Sebagai pengingat, salah satu cara membuat dan membersihkan korpus adalah dengan fungsi-fungsi di bawah ini. Meskipun ini adalah kursus yang berbeda, analisis sentimen merupakan bagian dari text mining, sehingga ulasan singkat dapat membantu.
- Ubah vektor karakter menjadi sumber teks menggunakan
VectorSource(). - Ubah sumber teks menjadi korpus menggunakan
VCorpus(). - Hapus karakter yang tidak diinginkan dari korpus menggunakan fungsi pembersihan seperti
removePunctuation()danstripWhitespace()daritm, sertareplace_abbreviation()dariqdap.
Pada latihan ini, sebuah fungsi kustom clean_corpus() telah dibuat menggunakan fungsi-fungsi prapemrosesan standar agar lebih mudah digunakan.
clean_corpus() menerima keluaran dari VCorpus() dan menerapkan fungsi-fungsi pembersihan. Contohnya:
processed_corpus <- clean_corpus(my_corpus)
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Petunjuk latihan
Sesi R Anda memiliki vektor teks, tm_define, yang berisi dua dokumen kecil serta fungsi clean_corpus().
- Buat objek bernama
tm_vectordengan menerapkanVectorSource()padatm_define. - Buat
tm_corpusmenggunakanVCorpus()padatm_vector. - Gunakan
content()untuk menelaah isi dokumen pertama dalamtm_corpus.- Dokumen dalam korpus diakses menggunakan sintaks daftar, jadi gunakan tanda kurung siku ganda, misalnya
[[1]].
- Dokumen dalam korpus diakses menggunakan sintaks daftar, jadi gunakan tanda kurung siku ganda, misalnya
- Bersihkan teks korpus menggunakan fungsi kustom
clean_corpus()padatm_corpus. Beri nama objek baru initm_clean. - Telaah kembali dokumen pertama dari objek
tm_cleanyang baru untuk melihat bagaimana teks berubah setelahclean_corpus()diterapkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define
# Create a VectorSource
tm_vector <- ___
# Apply VCorpus
tm_corpus <- ___
# Examine the first document's contents
___(___[[___]])
# Clean the text
tm_clean <- ___
# Reexamine the contents of the first doc
___