Ulasan TM (I)

Dalam kursus Text Mining: Bag of Words Anda mempelajari bahwa korpus adalah sekumpulan teks, dan Anda juga mempelajari beberapa fungsi untuk prapemrosesan teks. Sebagai pengingat, salah satu cara membuat dan membersihkan korpus adalah dengan fungsi-fungsi di bawah ini. Meskipun ini adalah kursus yang berbeda, analisis sentimen merupakan bagian dari text mining, sehingga ulasan singkat dapat membantu.

Ubah vektor karakter menjadi sumber teks menggunakan VectorSource().
Ubah sumber teks menjadi korpus menggunakan VCorpus().
Hapus karakter yang tidak diinginkan dari korpus menggunakan fungsi pembersihan seperti removePunctuation() dan stripWhitespace() dari tm, serta replace_abbreviation() dari qdap.

Pada latihan ini, sebuah fungsi kustom clean_corpus() telah dibuat menggunakan fungsi-fungsi prapemrosesan standar agar lebih mudah digunakan.

clean_corpus() menerima keluaran dari VCorpus() dan menerapkan fungsi-fungsi pembersihan. Contohnya:

processed_corpus <- clean_corpus(my_corpus)

Latihan ini merupakan bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Instruksi latihan

Sesi R Anda memiliki vektor teks, tm_define, yang berisi dua dokumen kecil serta fungsi clean_corpus().

Buat objek bernama tm_vector dengan menerapkan VectorSource() pada tm_define.
Buat tm_corpus menggunakan VCorpus() pada tm_vector.
Gunakan content() untuk menelaah isi dokumen pertama dalam tm_corpus.
- Dokumen dalam korpus diakses menggunakan sintaks daftar, jadi gunakan tanda kurung siku ganda, misalnya [[1]].
Bersihkan teks korpus menggunakan fungsi kustom clean_corpus() pada tm_corpus. Beri nama objek baru ini tm_clean.
Telaah kembali dokumen pertama dari objek tm_clean yang baru untuk melihat bagaimana teks berubah setelah clean_corpus() diterapkan.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___

Edit dan Jalankan Kode