Kelime kök bulma ve kök tamamlama giriş
Bir diğer yararlı ön işleme adımı da kelime kök bulma ve kök tamamlamadır. Kök bulma, belgeler arasında birliği sağlamak için kelimeleri köklerine indirger. Örneğin, "computational", "computers" ve "computation" kelimelerinin kökü "comput"tur. Ancak "comput" gerçek bir kelime olmadığı için, "computational", "computers" ve "computation" gibi kelimeleri tanıdık bir kelimeye, örneğin "computer"a dönüştürmek isteriz. Bu yeniden oluşturma adımına kök tamamlama denir.
tm paketi, bir kelimenin köküne ulaşmak için stemDocument() fonksiyonunu sağlar. Bu fonksiyon ya bir karakter vektörü alıp bir karakter vektörü döndürür ya da bir PlainTextDocument alıp bir PlainTextDocument döndürür.
Örneğin,
stemDocument(c("computational", "computers", "computation"))
"comput" "comput" "comput" döndürür.
Bu kökleri bilinen bir terime yeniden dönüştürmek için stemCompletion() kullanacaksın. stemCompletion() bir karakter vektörü ve bir tamamlama sözlüğü kabul eder. Tamamlama sözlüğü bir karakter vektörü ya da bir Corpus nesnesi olabilir. Her iki durumda da, örneğimiz için tamamlama sözlüğünün "computer" kelimesini içermesi gerekir ki tüm "comput" örnekleri yeniden oluşturulabilsin.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
- Sırasıyla "complicated", "complication" ve "complicatedly" kelimelerinden oluşan
complicateadlı bir vektör oluştur. complicate'in köklerine indirgenmiş halinistem_docadlı bir nesneye kaydet.- Tek bir kelime, "complicate" içeren
comp_dictoluştur. stem_docüzerinestemCompletion()uygulayarakcomplete_textoluştur. Kelimeleri referans derlem olarakcomp_dict'i kullanarak yeniden tamamla.complete_text'i konsola yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create complicate
complicate <- ___
# Perform word stemming: stem_doc
stem_doc <- ___
# Create the completion dictionary: comp_dict
comp_dict <- ___
# Perform stem completion: complete_text
complete_text <- ___
# Print complete_text
complete_text