Bir veri çerçevesinden VCorpus oluştur
Metin verin bir veri çerçevesindeyse, analiz için DataframeSource() kullanabilirsin. DataframeSource()'a verilen veri çerçevesinin belirli bir yapısı olmalı:
- Birinci sütunun adı
doc_idolmalı ve her satır için benzersiz bir dize içermeli. - İkinci sütunun adı
textolmalı ve kodlaması "UTF-8" olmalı (oldukça standart). - Diğer tüm sütunlar, 3+, meta veri olarak kabul edilir ve bu şekilde korunur.
Bu egzersiz, her bir belgeyle ilişkili meta verileri çıkarmak için meta() fonksiyonunu tanıtır. Çoğu zaman verinde yazarlar, tarihler, konu etiketleri veya yerler gibi analize ışık tutabilecek meta veriler olur. Metnin bir corpus olduktan sonra, ek belge düzeyi bilgileri incelemek için meta() uygulayabilirsin.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
Çalışma alanında, doğru sütun adlarına ve bazı meta verilere sahip example_text adlı basit bir veri çerçevesi var. Ayrıca VectorSource() ile oluşturulmuş uçucu bir corpus olan vec_corpus da mevcut.
example_textileDataframeSource()kullanarakdf_sourceoluştur.df_source'uVCorpus()ile bir uçucu corpus nesnesine dönüştürerekdf_corpusoluştur.df_corpus'u yazdır. Kaç belge içerdiğine ve korunmuş belge düzeyi meta veri sayısına dikkat et.- Belgeyle ilişkili meta verileri yazdırmak için
df_corpusüzerindemeta()kullan. - Önceden yüklenmiş
vec_corpusnesnesini incele. Belge sayısınıdf_corpusile karşılaştır. vec_corpusüzerindemeta()kullanarakvec_corpusvedf_corpusarasında bulunan meta verileri karşılaştır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create a DataframeSource from the example text
df_source <- ___
# Convert df_source to a volatile corpus
df_corpus <- ___
# Examine df_corpus
df_corpus
# Examine df_corpus metadata
___
# Compare the number of documents in the vector source
vec_corpus
# Compare metadata in the vector corpus
___