Vektörü bir VCorpus nesnesine dönüştür (2)
Artık vektörümüzü bir Source nesnesine dönüştürdüğümüze göre, bunu başka bir tm fonksiyonuna, VCorpus()'a aktararak geçici derlemimizi oluşturuyoruz. Oldukça basit, değil mi?
VCorpus nesnesi iç içe liste, yani listelerin listesidir. VCorpus nesnesinin her indeksinde, gerçek metin verisini (content) ve ilgili üst veriyi (meta) içeren bir liste olan bir PlainTextDocument nesnesi bulunur. Tüm yapıyı zihninde canlandırmana yardımcı olması için bir VCorpus nesnesini görselleştirmek faydalı olabilir.
Tek bir belge nesnesini (10.'su) incelemek için, çift köşeli parantezle alt kümeleme yaparsın.
coffee_corpus[[10]]
Gerçek metni incelemek için listeyi iki kez indekslersin. Belgenin zaman damgası gibi üst verilerine erişmek için [1]'i [2] olarak değiştir. Düz metni incelemenin bir başka yolu da, ikinci köşeli parantez setine ihtiyaç duymayan content() fonksiyonudur.
coffee_corpus[[10]][1]
content(coffee_corpus[[10]])
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
coffee_sourcenesnesi üzerindeVCorpus()fonksiyonunu çağırarakcoffee_corpusoluştur.coffee_corpus'un birVCorpusnesnesi olduğunu, konsola yazdırarak doğrula.coffee_corpus'un 15. elemanını konsola yazdırarak bunun içerik ve üst veriyi barındıran birPlainTextDocumentolduğunu doğrula. Çift köşeli parantez alt kümelerini kullan.coffee_corpusiçindeki 15. tweet'in içeriğini yazdır. İlgili tweet'i seçmek için çift köşeli parantez, o tweet'in içeriğini çıkarmak için ardından tek köşeli parantez kullan.coffee_corpusiçindeki 10. tweet'incontent()çıktısını yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
## coffee_source is already in your workspace
# Make a volatile corpus from coffee_source
coffee_corpus <- ___
# Print out coffee_corpus
___
# Print the 15th tweet in coffee_corpus
___
# Print the contents of the 15th tweet in coffee_corpus
___
# Now use content to review the plain text of the 10th tweet
___(___[[___]])