Buat Tidy Text Tibble!
Karena Anda telah mempelajari prinsip-prinsip tidy, kode ini membantu Anda menata data menjadi sebuah tibble sehingga Anda dapat bekerja dalam tidyverse!
Sebelumnya Anda mempelajari bahwa menerapkan tidy() pada objek TermDocumentMatrix() akan mengonversi TDM menjadi tibble. Pada latihan ini Anda akan membuat data kata langsung dari kolom ulasan bernama comments.
Pertama, gunakan unnest_tokens() untuk mengubah teks menjadi huruf kecil dan melakukan tokenisasi ulasan menjadi kata tunggal.
Terkadang berguna untuk menangkap urutan kata asli dalam setiap kelompok korpus. Untuk melakukannya, gunakan mutate(). Di dalam mutate() Anda akan menggunakan seq_along() untuk membuat urutan angka dari 1 hingga panjang objek. Ini akan merekam urutan kata sebagaimana dituliskan.
Dalam paket tm, Anda akan menggunakan removeWords() untuk menghapus stopword. Di tidyverse Anda perlu memuat leksikon stop words terlebih dahulu lalu menerapkan anti_join() antara data frame teks tidy dan stopwords.
Latihan ini adalah bagian dari kursus
Analisis Sentimen di R
Petunjuk latihan
- Buat
tidy_reviewsdengan mem-pipe (%>%) objek ulasan aslibos_reviewske fungsiunnest_tokens(). Masukkan nama kolom baru,word, dan tentukan kolomcomments. Ingat bahwa di tidyverse Anda tidak memerlukan$atau tanda petik. - Buat variabel baru dengan cara tidy! Tulis ulang
tidy_reviewsdengan mem-pipetidy_reviewskegroup_bydengan kolomid. Lalu%>%lagi kemutate(). Di dalam mutate buat variabel baruoriginal_word_orderyang sama denganseq_along(word). - Cetak tibble,
tidy_reviews. - Muat stopwords "SMART" yang sudah disiapkan ke sesi R Anda dengan
data("stop_words"). - Timpa
tidy_reviewsdengan mengopertidy_reviewsasli keanti_join()menggunakan%>%. Di dalamanti_join()masukkan leksikonstop_wordsyang telah ditentukan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Vector to tibble
tidy_reviews <- bos_reviews %>%
___(___, ___)
# Group by and mutate
tidy_reviews <- tidy_reviews %>%
___(___) %>%
___(original_word_order = ___(___))
# Quick review
___
# Load stopwords
___
# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>%
___(___)