Membuat tibble dari korpus
Untuk menelusuri lebih lanjut korpus data minyak mentah yang Anda terima dari rekan kerja, Anda memutuskan membuat rangkaian langkah (pipeline) untuk membersihkan teks dalam dokumen. Alih-alih mempelajari cara melakukannya dengan paket tm, Anda memutuskan untuk mengubah korpus menjadi tibble agar dapat menggunakan fungsi unnest_tokens(), count(), dan anti_join() yang sudah Anda kenal. Korpus crude memuat metadata dan teks dari tiap dokumen.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Ubah korpus menjadi tibble.
- Gunakan
namesuntuk menampilkan nama kolom. - Tokenisasi (berdasarkan kata), hitung, dan hapus stop word dari kolom
textpadacrude_tibble.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)