MulaiMulai sekarang secara gratis

Ulasan TM (I)

Dalam kursus Text Mining: Bag of Words Anda mempelajari bahwa korpus adalah sekumpulan teks, dan Anda juga mempelajari beberapa fungsi untuk prapemrosesan teks. Sebagai pengingat, salah satu cara membuat dan membersihkan korpus adalah dengan fungsi-fungsi di bawah ini. Meskipun ini adalah kursus yang berbeda, analisis sentimen merupakan bagian dari text mining, sehingga ulasan singkat dapat membantu.

Pada latihan ini, sebuah fungsi kustom clean_corpus() telah dibuat menggunakan fungsi-fungsi prapemrosesan standar agar lebih mudah digunakan.

clean_corpus() menerima keluaran dari VCorpus() dan menerapkan fungsi-fungsi pembersihan. Contohnya:

processed_corpus <- clean_corpus(my_corpus)

Latihan ini adalah bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Petunjuk latihan

Sesi R Anda memiliki vektor teks, tm_define, yang berisi dua dokumen kecil serta fungsi clean_corpus().

  • Buat objek bernama tm_vector dengan menerapkan VectorSource() pada tm_define.
  • Buat tm_corpus menggunakan VCorpus() pada tm_vector.
  • Gunakan content() untuk menelaah isi dokumen pertama dalam tm_corpus.
    • Dokumen dalam korpus diakses menggunakan sintaks daftar, jadi gunakan tanda kurung siku ganda, misalnya [[1]].
  • Bersihkan teks korpus menggunakan fungsi kustom clean_corpus() pada tm_corpus. Beri nama objek baru ini tm_clean.
  • Telaah kembali dokumen pertama dari objek tm_clean yang baru untuk melihat bagaimana teks berubah setelah clean_corpus() diterapkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___
Edit dan Jalankan Kode