Membuat korpus
Anda telah membuat sebuah tibble bernama russian_tweets yang memuat sekitar 20.000 tweet yang dibuat otomatis oleh bot selama siklus pemilu AS 2016 agar Anda dapat melakukan analisis teks. Namun, setelah meninjau opsi yang tersedia untuk melakukan analisis yang Anda pilih, Anda menilai bahwa paket tm menawarkan cara yang paling mudah. Untuk melakukan analisis, Anda terlebih dahulu harus membuat sebuah korpus dan menambahkan metadata yang berpotensi berguna.
Harap diketahui bahwa ini adalah data asli dari Twitter sehingga selalu ada risiko mengandung kata-kata kasar atau konten ofensif lainnya (baik dalam latihan ini maupun latihan berikutnya yang juga menggunakan data Twitter asli).
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Buat korpus menggunakan kolom
contentdarirussian_tweets. - Lampirkan kolom
followingdanfollowerssebagai metadata ketweet_corpus. - Cetak beberapa baris pertama dari tabel metadata.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))
# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___
# Review the meta data
head(meta(___))