Pengantar word stemming dan stem completion
Langkah praproses lain yang bermanfaat adalah word-stemming dan stem completion. Word stemming mengurangi kata ke akarnya untuk penyelarasan antar dokumen. Misalnya, akar dari "computational", "computers" dan "computation" adalah "comput". Namun karena "comput" bukan kata yang bermakna, kita ingin merekonstruksi kembali sehingga "computational", "computers", dan "computation" semuanya merujuk pada kata yang dikenali, seperti "computer". Langkah rekonstruksi ini disebut stem completion.
Paket tm menyediakan fungsi stemDocument() untuk mendapatkan akar kata. Fungsi ini dapat menerima vektor karakter dan mengembalikan vektor karakter, atau menerima PlainTextDocument dan mengembalikan PlainTextDocument.
Sebagai contoh,
stemDocument(c("computational", "computers", "computation"))
mengembalikan "comput" "comput" "comput".
Anda akan menggunakan stemCompletion() untuk merekonstruksi akar kata ini kembali menjadi term yang dikenal. stemCompletion() menerima vektor karakter dan kamus pelengkapan. Kamus pelengkapan dapat berupa vektor karakter atau objek Corpus. Dalam kedua kasus, kamus pelengkapan untuk contoh kita perlu memuat kata "computer," sehingga semua kemunculan "comput" dapat direkonstruksi.
Latihan ini adalah bagian dari kursus
Text Mining dengan Bag-of-Words di R
Petunjuk latihan
- Buat vektor bernama
complicateyang berisi kata "complicated", "complication", dan "complicatedly" secara berurutan. - Simpan versi stemming dari
complicateke objek bernamastem_doc. - Buat
comp_dictyang berisi satu kata, "complicate". - Buat
complete_textdengan menerapkanstemCompletion()padastem_doc. Lengkapi kembali kata-katanya menggunakancomp_dictsebagai korpus referensi. - Cetak
complete_textke konsol.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text