BaşlayınÜcretsiz başlayın

tm'de üstveriyi yakalama

Ne yapmaya çalıştığına bağlı olarak, bir korpus oluştururken belgeye ait üstveriyi (metadata) saklamak isteyebilirsin.

Belge düzeyindeki üstveriyi yakalamak için sütun adları ve sırası şu şekilde olmalı:

  1. doc_id - her belge için benzersiz bir dize
  2. text - incelenecek metin
  3. ... - diğer tüm sütunlar otomatik olarak üstveri olarak kaydedilecektir.

Bazen DataframeSource() beklentilerine uyması için sütunları yeniden adlandırman gerekir. Bunun için names() fonksiyonu kullanışlıdır.

tweets, çalışma alanında "num", "text", "screenName" ve "created" sütunlarına sahip bir veri çerçevesi (data frame) olarak mevcut.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

  • tweetsin ilk sütununu "doc_id" olarak yeniden adlandır.
  • Daha küçük tweets veri çerçevesi üzerinde DataframeSource() ile belge şemasını ayarla.
  • Belge koleksiyonunu, özel clean_corpus() fonksiyonunun içine iç içe (nested) yerleştirilmiş geçici (volatile) bir korpus yap.
  • Temizlenmiş düz metni görmek için, text_corpus[[1]] gibi çift köşeli parantezlerle ilk tweete content() uygula.
  • Tüm üstverinin yakalandığını doğrulamak için, ilk belge üzerinde tek köşeli parantez kullanarak meta() fonksiyonunu çalıştır.

Unutma, bir korpusun parçasına erişirken çift veya tek köşeli parantez kullanman fark yaratır! Bu egzersizde, content() ile çift, meta() ile tek köşeli parantez kullanacaksın.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Rename columns
___(tweets)[1] <- "___"

# Set the schema: docs
docs <- ___(___)

# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))

# Examine the first doc content
___(text_corpus[[___]])

# Access the first doc metadata
___(text_corpus[___])
Kodu Düzenle ve Çalıştır