BaşlayınÜcretsiz Başlayın

Vektörü bir VCorpus nesnesine dönüştür (2)

Artık vektörümüzü bir Source nesnesine dönüştürdüğümüze göre, bunu başka bir tm fonksiyonuna, VCorpus()'a aktararak geçici derlemimizi oluşturuyoruz. Oldukça basit, değil mi?

VCorpus nesnesi iç içe liste, yani listelerin listesidir. VCorpus nesnesinin her indeksinde, gerçek metin verisini (content) ve ilgili üst veriyi (meta) içeren bir liste olan bir PlainTextDocument nesnesi bulunur. Tüm yapıyı zihninde canlandırmana yardımcı olması için bir VCorpus nesnesini görselleştirmek faydalı olabilir.

Tek bir belge nesnesini (10.'su) incelemek için, çift köşeli parantezle alt kümeleme yaparsın.

coffee_corpus[[10]]

Gerçek metni incelemek için listeyi iki kez indekslersin. Belgenin zaman damgası gibi üst verilerine erişmek için [1]'i [2] olarak değiştir. Düz metni incelemenin bir başka yolu da, ikinci köşeli parantez setine ihtiyaç duymayan content() fonksiyonudur.

coffee_corpus[[10]][1]

content(coffee_corpus[[10]])

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • coffee_source nesnesi üzerinde VCorpus() fonksiyonunu çağırarak coffee_corpus oluştur.
  • coffee_corpus'un bir VCorpus nesnesi olduğunu, konsola yazdırarak doğrula.
  • coffee_corpus'un 15. elemanını konsola yazdırarak bunun içerik ve üst veriyi barındıran bir PlainTextDocument olduğunu doğrula. Çift köşeli parantez alt kümelerini kullan.
  • coffee_corpus içindeki 15. tweet'in içeriğini yazdır. İlgili tweet'i seçmek için çift köşeli parantez, o tweet'in içeriğini çıkarmak için ardından tek köşeli parantez kullan.
  • coffee_corpus içindeki 10. tweet'in content() çıktısını yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

## coffee_source is already in your workspace

# Make a volatile corpus from coffee_source
coffee_corpus <- ___

# Print out coffee_corpus
___

# Print the 15th tweet in coffee_corpus
___

# Print the contents of the 15th tweet in coffee_corpus
___

# Now use content to review the plain text of the 10th tweet
___(___[[___]])
Kodu Düzenle ve Çalıştır