MulaiMulai sekarang secara gratis

Buat Tidy Text Tibble!

Karena Anda telah mempelajari prinsip-prinsip tidy, kode ini membantu Anda menata data menjadi sebuah tibble sehingga Anda dapat bekerja dalam tidyverse!

Sebelumnya Anda mempelajari bahwa menerapkan tidy() pada objek TermDocumentMatrix() akan mengonversi TDM menjadi tibble. Pada latihan ini Anda akan membuat data kata langsung dari kolom ulasan bernama comments.

Pertama, gunakan unnest_tokens() untuk mengubah teks menjadi huruf kecil dan melakukan tokenisasi ulasan menjadi kata tunggal.

Terkadang berguna untuk menangkap urutan kata asli dalam setiap kelompok korpus. Untuk melakukannya, gunakan mutate(). Di dalam mutate() Anda akan menggunakan seq_along() untuk membuat urutan angka dari 1 hingga panjang objek. Ini akan merekam urutan kata sebagaimana dituliskan.

Dalam paket tm, Anda akan menggunakan removeWords() untuk menghapus stopword. Di tidyverse Anda perlu memuat leksikon stop words terlebih dahulu lalu menerapkan anti_join() antara data frame teks tidy dan stopwords.

Latihan ini adalah bagian dari kursus

Analisis Sentimen di R

Lihat Kursus

Petunjuk latihan

  • Buat tidy_reviews dengan mem-pipe (%>%) objek ulasan asli bos_reviews ke fungsi unnest_tokens(). Masukkan nama kolom baru, word, dan tentukan kolom comments. Ingat bahwa di tidyverse Anda tidak memerlukan $ atau tanda petik.
  • Buat variabel baru dengan cara tidy! Tulis ulang tidy_reviews dengan mem-pipe tidy_reviews ke group_by dengan kolom id. Lalu %>% lagi ke mutate(). Di dalam mutate buat variabel baru original_word_order yang sama dengan seq_along(word).
  • Cetak tibble, tidy_reviews.
  • Muat stopwords "SMART" yang sudah disiapkan ke sesi R Anda dengan data("stop_words").
  • Timpa tidy_reviews dengan mengoper tidy_reviews asli ke anti_join() menggunakan %>%. Di dalam anti_join() masukkan leksikon stop_words yang telah ditentukan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Vector to tibble
tidy_reviews <- bos_reviews %>% 
  ___(___, ___)

# Group by and mutate
tidy_reviews <- tidy_reviews %>% 
  ___(___) %>% 
  ___(original_word_order = ___(___))

# Quick review
___

# Load stopwords
___

# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>% 
  ___(___)
Edit dan Jalankan Kode