Mulai sekarangMulai gratis

Membuat tibble dari korpus

Untuk menelusuri lebih lanjut korpus data minyak mentah yang Anda terima dari rekan kerja, Anda memutuskan membuat rangkaian langkah (pipeline) untuk membersihkan teks dalam dokumen. Alih-alih mempelajari cara melakukannya dengan paket tm, Anda memutuskan untuk mengubah korpus menjadi tibble agar dapat menggunakan fungsi unnest_tokens(), count(), dan anti_join() yang sudah Anda kenal. Korpus crude memuat metadata dan teks dari tiap dokumen.

Latihan ini merupakan bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Instruksi latihan

  • Ubah korpus menjadi tibble.
  • Gunakan names untuk menampilkan nama kolom.
  • Tokenisasi (berdasarkan kata), hitung, dan hapus stop word dari kolom text pada crude_tibble.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Edit dan Jalankan Kode