Bir cümlede gövdeleme (stemming) ve gövde tamamlama

Bu egzersizde belgemiz olarak aşağıdaki cümleyi ele alalım:

"In a complicated haste, Tom rushed to fix a new complication, too complicatedly."

Bu cümlede, önceki egzersizde gördüğümüz "complicate" kelimesinin aynı üç biçimi yer alıyor. Buradaki fark şu: Bu cümlede stemDocument() çağırmış olsan bile, hiçbir kelimeyi gövdelemeden cümleyi olduğu gibi döndürür. Bir dakikanı ayırıp konsolda dene. Noktalama işaretlerini dahil ettiğine emin ol.

Bunun nedeni, stemDocument()ın tüm cümleyi tek bir kelime olarak ele almasıdır. Başka bir deyişle, belgemiz uzunluğu n olması gerekirken, n belgedeki kelime sayısı olmak üzere, uzunluğu 1 olan bir karakter vektörüdür. Bu sorunu çözmek için önce birkaç egzersiz önce öğrendiğin removePunctuation() fonksiyonuyla noktalama işaretlerini kaldırıyoruz. Sonra bu uzunluğu 1 olan karakter vektörünü strsplit() ile uzunluğu n olacak şekilde bölüyoruz, unlist() ediyoruz, ardından gövdeleme ve yeniden tamamlama adımlarına geçiyoruz.

Kafa karıştırıcı geldiyse endişelenme. Süreci adım adım birlikte yapacağız!

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

text_data belgesi ve tamamlama sözlüğü comp_dict çalışma alanına yüklendi.

text_data içindeki noktalama işaretlerini removePunctuation() ile kaldır ve rm_punc olarak ata.
rm_punc üzerinde strsplit() çağır ve split argümanını " " olarak ayarla. Bunu unlist() içine yerleştir ve n_char_vec olarak ata.
stemDocument() fonksiyonunu tekrar kullanarak n_char_vec üzerinde kelime gövdeleme yap ve stem_doc olarak ata.
stemCompletion() ile gövdesi çıkarılmış belgeni yeniden tamamlayarak complete_doc oluştur ve başvuru korpusu olarak comp_dict kullan.

stem_doc ve complete_doc beklediğin gibi mi?

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Remove punctuation: rm_punc
rm_punc <- ____

# Create character vector: n_char_vec
n_char_vec <- unlist(___(___, split = " "))

# Perform word stemming: stem_doc
stem_doc <- ___

# Print stem_doc
stem_doc

# Re-complete stemmed document: complete_doc
complete_doc <- ___

# Print complete_doc
complete_doc

Kodu Düzenle ve Çalıştır