MulaiMulai sekarang secara gratis

Jadikan vektor sebagai objek VCorpus (1)

Ingat bahwa Anda telah memuat data teks sebagai vektor bernama coffee_tweets pada latihan sebelumnya. Langkah berikutnya adalah mengonversi vektor yang berisi data teks ini menjadi sebuah corpus. Seperti yang Anda pelajari di video, corpus adalah kumpulan dokumen, dan penting juga untuk diketahui bahwa dalam domain tm, R mengenalinya sebagai sebuah tipe data.

Ada dua jenis tipe data corpus, yaitu permanent corpus (PCorpus) dan volatile corpus (VCorpus). Intinya, perbedaannya terletak pada bagaimana kumpulan dokumen disimpan di komputer Anda. Dalam kursus ini, kita akan menggunakan volatile corpus, yang disimpan di RAM komputer Anda alih-alih disimpan ke disk, agar lebih efisien dalam penggunaan memori.

Untuk membuat volatile corpus, R perlu menafsirkan setiap elemen dalam vektor teks kita, coffee_tweets, sebagai sebuah dokumen. Paket tm menyediakan apa yang disebut fungsi Source untuk melakukan hal itu! Dalam latihan ini, kita akan menggunakan fungsi Source bernama VectorSource() karena data teks kita berada dalam sebuah vektor. Keluaran fungsi ini disebut objek Source. Silakan coba!

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Muat paket tm.
  • Buat objek Source dari vektor coffee_tweets. Beri nama objek baru ini coffee_source.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load tm
___

# Make a vector source from coffee_tweets
___
Edit dan Jalankan Kode