Jadikan vektor sebagai objek VCorpus (1)
Ingat bahwa Anda telah memuat data teks sebagai vektor bernama coffee_tweets pada latihan sebelumnya. Langkah berikutnya adalah mengonversi vektor yang berisi data teks ini menjadi sebuah corpus. Seperti yang Anda pelajari di video, corpus adalah kumpulan dokumen, dan penting juga untuk diketahui bahwa dalam domain tm, R mengenalinya sebagai sebuah tipe data.
Ada dua jenis tipe data corpus, yaitu permanent corpus (PCorpus) dan volatile corpus (VCorpus). Intinya, perbedaannya terletak pada bagaimana kumpulan dokumen disimpan di komputer Anda. Dalam kursus ini, kita akan menggunakan volatile corpus, yang disimpan di RAM komputer Anda alih-alih disimpan ke disk, agar lebih efisien dalam penggunaan memori.
Untuk membuat volatile corpus, R perlu menafsirkan setiap elemen dalam vektor teks kita, coffee_tweets, sebagai sebuah dokumen. Paket tm menyediakan apa yang disebut fungsi Source untuk melakukan hal itu! Dalam latihan ini, kita akan menggunakan fungsi Source bernama VectorSource() karena data teks kita berada dalam sebuah vektor. Keluaran fungsi ini disebut objek Source. Silakan coba!
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Muat paket
tm. - Buat objek Source dari vektor
coffee_tweets. Beri nama objek baru inicoffee_source.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load tm
___
# Make a vector source from coffee_tweets
___