Prapemrosesan teks: Stemming
Akar kata sering kali lebih penting daripada akhiran katanya, terutama dalam analisis teks. Buku Animal Farm jelas tentang hewan. Namun, mengetahui bahwa buku tersebut menyebut animal's sebanyak 248 kali, dan animal 107 kali mungkin tidak membantu analisis Anda.
tidy_animal_farm berisi tibble berisi kata-kata dari Animal Farm, yang telah ditokenisasi dan tanpa stop word. Langkah berikutnya adalah melakukan stemming pada kata-kata tersebut dan mengeksplorasi hasilnya.
Latihan ini adalah bagian dari kursus
Pengantar Natural Language Processing di R
Petunjuk latihan
- Gunakan
dplyrdanSnowballCuntuk melakukan stemming pada kata-kata daritidy_animal_farm. - Cetak frekuensi kata lama dari
tidy_animal_farm. - Cetak frekuensi kata baru dari
stemmed_animal_farm.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
___(word = ___(___))
# Print the old word frequencies
___ %>%
___(word, sort = ___)
# Print the new word frequencies
___ %>%
___(word, sort = ___)