tm'de üstveriyi yakalama
Ne yapmaya çalıştığına bağlı olarak, bir korpus oluştururken belgeye ait üstveriyi (metadata) saklamak isteyebilirsin.
Belge düzeyindeki üstveriyi yakalamak için sütun adları ve sırası şu şekilde olmalı:
doc_id- her belge için benzersiz bir dizetext- incelenecek metin...- diğer tüm sütunlar otomatik olarak üstveri olarak kaydedilecektir.
Bazen DataframeSource() beklentilerine uyması için sütunları yeniden adlandırman gerekir. Bunun için names() fonksiyonu kullanışlıdır.
tweets, çalışma alanında "num", "text", "screenName" ve "created" sütunlarına sahip bir veri çerçevesi (data frame) olarak mevcut.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
tweetsin ilk sütununu "doc_id" olarak yeniden adlandır.- Daha küçük
tweetsveri çerçevesi üzerindeDataframeSource()ile belge şemasını ayarla. - Belge koleksiyonunu, özel
clean_corpus()fonksiyonunun içine iç içe (nested) yerleştirilmiş geçici (volatile) bir korpus yap. - Temizlenmiş düz metni görmek için,
text_corpus[[1]]gibi çift köşeli parantezlerle ilk tweetecontent()uygula. - Tüm üstverinin yakalandığını doğrulamak için, ilk belge üzerinde tek köşeli parantez kullanarak
meta()fonksiyonunu çalıştır.
Unutma, bir korpusun parçasına erişirken çift veya tek köşeli parantez kullanman fark yaratır! Bu egzersizde, content() ile çift, meta() ile tek köşeli parantez kullanacaksın.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Rename columns
___(tweets)[1] <- "___"
# Set the schema: docs
docs <- ___(___)
# Make a clean volatile corpus: text_corpus
text_corpus <- clean_corpus(___(___))
# Examine the first doc content
___(text_corpus[[___]])
# Access the first doc metadata
___(text_corpus[___])