Metin madenciliğine hızlı bir giriş

Bazen yalnızca en sık geçen kelimelere bakarak yazarın niyetini ve ana fikirleri anlayabiliriz.

Özü itibarıyla, bag-of-words metin madenciliği, bir belge koleksiyonu genelinde terimleri veya n-gramleri saymanın bir yoludur. Aşağıdaki cümleleri düşün; bunları text olarak kaydettik ve çalışma alanında kullanılabilir hale getirdik:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Yukarıdaki cümlelerdeki kelimeleri elle saymak zahmetli! Neyse ki, qdap paketi daha iyi bir alternatif sunuyor. freq_terms fonksiyonunu çağırıp 4 belirterek text içindeki en sık geçen 4 terimi (eşitlikler dahil) kolayca bulabilirsin.

frequent_terms <- freq_terms(text, 4)

frequent_terms nesnesi tüm benzersiz kelimeleri ve sayımlarını saklar. Daha sonra frequent_terms nesnesi üzerinde plot fonksiyonunu çağırarak basitçe bir çubuk grafik oluşturabilirsin.

plot(frequent_terms)

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

Çalışma alanında new_text adlı ve birkaç cümle içeren bir nesne oluşturduk.

qdap paketini yükle.
new_text'i konsola yazdır.
new_text içindeki en sık geçen 10 terimden oluşan term_count nesnesini oluştur.
term_count sonuçlarıyla bir çubuk grafik çiz.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Kodu Düzenle ve Çalıştır