BaşlayınÜcretsiz Başlayın

tm'de üstveriyi yakalama

Ne yapmaya çalıştığına bağlı olarak, bir korpus oluştururken belgeye ait üstveriyi (metadata) saklamak isteyebilirsin.

Belge düzeyindeki üstveriyi yakalamak için sütun adları ve sırası şu şekilde olmalı:

  1. doc_id - her belge için benzersiz bir dize
  2. text - incelenecek metin
  3. ... - diğer tüm sütunlar otomatik olarak üstveri olarak kaydedilecektir.

Bazen DataframeSource() beklentilerine uyması için sütunları yeniden adlandırman gerekir. Bunun için names() fonksiyonu kullanışlıdır.

tweets, çalışma alanında "num", "text", "screenName" ve "created" sütunlarına sahip bir veri çerçevesi (data frame) olarak mevcut.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • tweetsin ilk sütununu "doc_id" olarak yeniden adlandır.
  • Daha küçük tweets veri çerçevesi üzerinde DataframeSource() ile belge şemasını ayarla.
  • Belge koleksiyonunu, özel clean_corpus() fonksiyonunun içine iç içe (nested) yerleştirilmiş geçici (volatile) bir korpus yap.
  • Temizlenmiş düz metni görmek için, text_corpus[[1]] gibi çift köşeli parantezlerle ilk tweete content() uygula.
  • Tüm üstverinin yakalandığını doğrulamak için, ilk belge üzerinde tek köşeli parantez kullanarak meta() fonksiyonunu çalıştır.

Unutma, bir korpusun parçasına erişirken çift veya tek köşeli parantez kullanman fark yaratır! Bu egzersizde, content() ile çift, meta() ile tek köşeli parantez kullanacaksın.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Kodu Düzenle ve Çalıştır