MulaiMulai sekarang secara gratis

Pengantar word stemming dan stem completion

Langkah praproses lain yang bermanfaat adalah word-stemming dan stem completion. Word stemming mengurangi kata ke akarnya untuk penyelarasan antar dokumen. Misalnya, akar dari "computational", "computers" dan "computation" adalah "comput". Namun karena "comput" bukan kata yang bermakna, kita ingin merekonstruksi kembali sehingga "computational", "computers", dan "computation" semuanya merujuk pada kata yang dikenali, seperti "computer". Langkah rekonstruksi ini disebut stem completion.

Paket tm menyediakan fungsi stemDocument() untuk mendapatkan akar kata. Fungsi ini dapat menerima vektor karakter dan mengembalikan vektor karakter, atau menerima PlainTextDocument dan mengembalikan PlainTextDocument.

Sebagai contoh,

stemDocument(c("computational", "computers", "computation"))

mengembalikan "comput" "comput" "comput".

Anda akan menggunakan stemCompletion() untuk merekonstruksi akar kata ini kembali menjadi term yang dikenal. stemCompletion() menerima vektor karakter dan kamus pelengkapan. Kamus pelengkapan dapat berupa vektor karakter atau objek Corpus. Dalam kedua kasus, kamus pelengkapan untuk contoh kita perlu memuat kata "computer," sehingga semua kemunculan "comput" dapat direkonstruksi.

Latihan ini adalah bagian dari kursus

Text Mining dengan Bag-of-Words di R

Lihat Kursus

Petunjuk latihan

  • Buat vektor bernama complicate yang berisi kata "complicated", "complication", dan "complicatedly" secara berurutan.
  • Simpan versi stemming dari complicate ke objek bernama stem_doc.
  • Buat comp_dict yang berisi satu kata, "complicate".
  • Buat complete_text dengan menerapkan stemCompletion() pada stem_doc. Lengkapi kembali kata-katanya menggunakan comp_dict sebagai korpus referensi.
  • Cetak complete_text ke konsol.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create complicate
complicate <- ___

# Perform word stemming: stem_doc
stem_doc <- ___

# Create the completion dictionary: comp_dict
comp_dict <- ___

# Perform stem completion: complete_text 
complete_text <- ___

# Print complete_text
complete_text
Edit dan Jalankan Kode