MulaiMulai sekarang secara gratis

Membuat tibble dari korpus

Untuk menelusuri lebih lanjut korpus data minyak mentah yang Anda terima dari rekan kerja, Anda memutuskan membuat rangkaian langkah (pipeline) untuk membersihkan teks dalam dokumen. Alih-alih mempelajari cara melakukannya dengan paket tm, Anda memutuskan untuk mengubah korpus menjadi tibble agar dapat menggunakan fungsi unnest_tokens(), count(), dan anti_join() yang sudah Anda kenal. Korpus crude memuat metadata dan teks dari tiap dokumen.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Ubah korpus menjadi tibble.
  • Gunakan names untuk menampilkan nama kolom.
  • Tokenisasi (berdasarkan kata), hitung, dan hapus stop word dari kolom text pada crude_tibble.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Edit dan Jalankan Kode