Bir cümlede gövdeleme (stemming) ve gövde tamamlama
Bu egzersizde belgemiz olarak aşağıdaki cümleyi ele alalım:
"In a complicated haste, Tom rushed to fix a new complication, too complicatedly."
Bu cümlede, önceki egzersizde gördüğümüz "complicate" kelimesinin aynı üç biçimi yer alıyor. Buradaki fark şu: Bu cümlede stemDocument() çağırmış olsan bile, hiçbir kelimeyi gövdelemeden cümleyi olduğu gibi döndürür. Bir dakikanı ayırıp konsolda dene. Noktalama işaretlerini dahil ettiğine emin ol.
Bunun nedeni, stemDocument()ın tüm cümleyi tek bir kelime olarak ele almasıdır. Başka bir deyişle, belgemiz uzunluğu n olması gerekirken, n belgedeki kelime sayısı olmak üzere, uzunluğu 1 olan bir karakter vektörüdür. Bu sorunu çözmek için önce birkaç egzersiz önce öğrendiğin removePunctuation() fonksiyonuyla noktalama işaretlerini kaldırıyoruz. Sonra bu uzunluğu 1 olan karakter vektörünü strsplit() ile uzunluğu n olacak şekilde bölüyoruz, unlist() ediyoruz, ardından gövdeleme ve yeniden tamamlama adımlarına geçiyoruz.
Kafa karıştırıcı geldiyse endişelenme. Süreci adım adım birlikte yapacağız!
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
text_data belgesi ve tamamlama sözlüğü comp_dict çalışma alanına yüklendi.
text_dataiçindeki noktalama işaretleriniremovePunctuation()ile kaldır verm_puncolarak ata.rm_puncüzerindestrsplit()çağır vesplitargümanını" "olarak ayarla. Bunuunlist()içine yerleştir ven_char_vecolarak ata.stemDocument()fonksiyonunu tekrar kullanarakn_char_vecüzerinde kelime gövdeleme yap vestem_docolarak ata.stemCompletion()ile gövdesi çıkarılmış belgeni yeniden tamamlayarakcomplete_docoluştur ve başvuru korpusu olarakcomp_dictkullan.
stem_doc ve complete_doc beklediğin gibi mi?
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Remove punctuation: rm_punc
rm_punc <- ____
# Create character vector: n_char_vec
n_char_vec <- unlist(___(___, split = " "))
# Perform word stemming: stem_doc
stem_doc <- ___
# Print stem_doc
stem_doc
# Re-complete stemmed document: complete_doc
complete_doc <- ___
# Print complete_doc
complete_doc