Prapemrosesan teks: Stemming
Akar kata sering kali lebih penting daripada akhiran katanya, terutama dalam analisis teks. Buku Animal Farm jelas tentang hewan. Namun, mengetahui bahwa buku tersebut menyebut animal's sebanyak 248 kali, dan animal 107 kali mungkin tidak membantu analisis Anda.
tidy_animal_farm berisi tibble berisi kata-kata dari Animal Farm, yang telah ditokenisasi dan tanpa stop word. Langkah berikutnya adalah melakukan stemming pada kata-kata tersebut dan mengeksplorasi hasilnya.
Latihan ini merupakan bagian dari kursus
Pengantar Natural Language Processing di R
Instruksi latihan
- Gunakan
dplyrdanSnowballCuntuk melakukan stemming pada kata-kata daritidy_animal_farm. - Cetak frekuensi kata lama dari
tidy_animal_farm. - Cetak frekuensi kata baru dari
stemmed_animal_farm.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)