MulaiMulai sekarang secara gratis

Prapemrosesan teks: Stemming

Akar kata sering kali lebih penting daripada akhiran katanya, terutama dalam analisis teks. Buku Animal Farm jelas tentang hewan. Namun, mengetahui bahwa buku tersebut menyebut animal's sebanyak 248 kali, dan animal 107 kali mungkin tidak membantu analisis Anda.

tidy_animal_farm berisi tibble berisi kata-kata dari Animal Farm, yang telah ditokenisasi dan tanpa stop word. Langkah berikutnya adalah melakukan stemming pada kata-kata tersebut dan mengeksplorasi hasilnya.

Latihan ini adalah bagian dari kursus

Pengantar Natural Language Processing di R

Lihat Kursus

Petunjuk latihan

  • Gunakan dplyr dan SnowballC untuk melakukan stemming pada kata-kata dari tidy_animal_farm.
  • Cetak frekuensi kata lama dari tidy_animal_farm.
  • Cetak frekuensi kata baru dari stemmed_animal_farm.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Perform stemming on tidy_animal_farm
stemmed_animal_farm <- tidy_animal_farm %>%
  ___(word = ___(___))

# Print the old word frequencies 
___ %>%
  ___(word, sort = ___)

# Print the new word frequencies
___ %>%
  ___(word, sort = ___)
Edit dan Jalankan Kode