Vektörü bir VCorpus nesnesine dönüştür (1)
Son egzersizde metin verilerini coffee_tweets adlı bir vektör olarak yüklemiştin. Sıradaki adımın, metin verilerini içeren bu vektörü bir corpusa dönüştürmek. Videoda öğrendiğin gibi, corpus belge koleksiyonudur; ayrıca tm alanında R tarafından bir veri türü olarak tanındığını bilmek de önemli.
Corpus veri türünün iki çeşidi vardır: kalıcı corpus PCorpus ve uçucu corpus VCorpus. Özünde aralarındaki fark, belge koleksiyonunun bilgisayarında nasıl saklandığıyla ilgilidir. Bu derste, diske kaydetmek yerine bilgisayarının RAM’inde tutulan ve bellek açısından daha verimli olan uçucu corpus’u kullanacağız.
Uçucu bir corpus oluşturmak için R’nin, metin vektörümüzdeki (coffee_tweets) her bir öğeyi birer belge olarak yorumlaması gerekir. tm paketi bunu yapmak için Source fonksiyonları sağlar! Bu egzersizde, metin verilerimiz bir vektörde olduğundan VectorSource() adlı Source fonksiyonunu kullanacağız. Bu fonksiyonun çıktısına Source nesnesi denir. Hadi dene!
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
tmpaketini yükle.coffee_tweetsvektöründen bir Source nesnesi oluştur. Bu yeni nesneyecoffee_sourceadını ver.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Load tm
___
# Make a vector source from coffee_tweets
___