Metin madenciliğine hızlı bir giriş
Bazen yalnızca en sık geçen kelimelere bakarak yazarın niyetini ve ana fikirleri anlayabiliriz.
Özü itibarıyla, bag-of-words metin madenciliği, bir belge koleksiyonu genelinde terimleri veya n-gramleri saymanın bir yoludur. Aşağıdaki cümleleri düşün; bunları text olarak kaydettik ve çalışma alanında kullanılabilir hale getirdik:
text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."
Yukarıdaki cümlelerdeki kelimeleri elle saymak zahmetli! Neyse ki, qdap paketi daha iyi bir alternatif sunuyor. freq_terms fonksiyonunu çağırıp 4 belirterek text içindeki en sık geçen 4 terimi (eşitlikler dahil) kolayca bulabilirsin.
frequent_terms <- freq_terms(text, 4)
frequent_terms nesnesi tüm benzersiz kelimeleri ve sayımlarını saklar. Daha sonra frequent_terms nesnesi üzerinde plot fonksiyonunu çağırarak basitçe bir çubuk grafik oluşturabilirsin.
plot(frequent_terms)
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
Çalışma alanında new_text adlı ve birkaç cümle içeren bir nesne oluşturduk.
qdappaketini yükle.new_text'i konsola yazdır.new_textiçindeki en sık geçen 10 terimden oluşanterm_countnesnesini oluştur.term_countsonuçlarıyla bir çubuk grafik çiz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load qdap
___
# Print new_text to the console
new_text
# Find the 10 most frequent terms: term_count
term_count <- ___
# Plot term_count
___