Mulai sekarangMulai gratis

Jadikan vektor sebagai objek VCorpus (1)

Ingat bahwa Anda telah memuat data teks sebagai vektor bernama coffee_tweets pada latihan sebelumnya. Langkah berikutnya adalah mengonversi vektor yang berisi data teks ini menjadi sebuah corpus. Seperti yang Anda pelajari di video, corpus adalah kumpulan dokumen, dan penting juga untuk diketahui bahwa dalam domain tm, R mengenalinya sebagai sebuah tipe data.

Ada dua jenis tipe data corpus, yaitu permanent corpus (PCorpus) dan volatile corpus (VCorpus). Intinya, perbedaannya terletak pada bagaimana kumpulan dokumen disimpan di komputer Anda. Dalam kursus ini, kita akan menggunakan volatile corpus, yang disimpan di RAM komputer Anda alih-alih disimpan ke disk, agar lebih efisien dalam penggunaan memori.

Untuk membuat volatile corpus, R perlu menafsirkan setiap elemen dalam vektor teks kita, coffee_tweets, sebagai sebuah dokumen. Paket tm menyediakan apa yang disebut fungsi Source untuk melakukan hal itu! Dalam latihan ini, kita akan menggunakan fungsi Source bernama VectorSource() karena data teks kita berada dalam sebuah vektor. Keluaran fungsi ini disebut objek Source. Silakan coba!

Latihan ini merupakan bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Instruksi latihan

  • Muat paket tm.
  • Buat objek Source dari vektor coffee_tweets. Beri nama objek baru ini coffee_source.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Load tm
___

# Make a vector source from coffee_tweets
___
Edit dan Jalankan Kode