BaşlayınÜcretsiz Başlayın

Bir veri çerçevesinden VCorpus oluştur

Metin verin bir veri çerçevesindeyse, analiz için DataframeSource() kullanabilirsin. DataframeSource()'a verilen veri çerçevesinin belirli bir yapısı olmalı:

  • Birinci sütunun adı doc_id olmalı ve her satır için benzersiz bir dize içermeli.
  • İkinci sütunun adı text olmalı ve kodlaması "UTF-8" olmalı (oldukça standart).
  • Diğer tüm sütunlar, 3+, meta veri olarak kabul edilir ve bu şekilde korunur.

Bu egzersiz, her bir belgeyle ilişkili meta verileri çıkarmak için meta() fonksiyonunu tanıtır. Çoğu zaman verinde yazarlar, tarihler, konu etiketleri veya yerler gibi analize ışık tutabilecek meta veriler olur. Metnin bir corpus olduktan sonra, ek belge düzeyi bilgileri incelemek için meta() uygulayabilirsin.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

Çalışma alanında, doğru sütun adlarına ve bazı meta verilere sahip example_text adlı basit bir veri çerçevesi var. Ayrıca VectorSource() ile oluşturulmuş uçucu bir corpus olan vec_corpus da mevcut.

  • example_text ile DataframeSource() kullanarak df_source oluştur.
  • df_source'u VCorpus() ile bir uçucu corpus nesnesine dönüştürerek df_corpus oluştur.
  • df_corpus'u yazdır. Kaç belge içerdiğine ve korunmuş belge düzeyi meta veri sayısına dikkat et.
  • Belgeyle ilişkili meta verileri yazdırmak için df_corpus üzerinde meta() kullan.
  • Önceden yüklenmiş vec_corpus nesnesini incele. Belge sayısını df_corpus ile karşılaştır.
  • vec_corpus üzerinde meta() kullanarak vec_corpus ve df_corpus arasında bulunan meta verileri karşılaştır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a DataframeSource from the example text
df_source <- ___

# Convert df_source to a volatile corpus
df_corpus <- ___

# Examine df_corpus
df_corpus

# Examine df_corpus metadata
___

# Compare the number of documents in the vector source
vec_corpus

# Compare metadata in the vector corpus
___
Kodu Düzenle ve Çalıştır