Bir corpus oluştur ve küçük harfe dönüştür
Bir corpus, metin belgelerinin bir listesidir. Metin işleme adımlarını kolaylaştırmak için tweet metnini bir corpus’a dönüştürmen gerekiyor.
Metni analiz ederken, aynı kelimenin farklı büyük/küçük harf kullanımı yüzünden iki farklı kelime olarak sayılmamasını sağlamak istersin. Bu nedenle metni küçük harfe çevirmelisin.
Bu egzersizde bir metin corpus’u oluşturacak ve tüm karakterleri küçük harfe dönüştüreceksin.
Önceki egzersizden elde edilen temizlenmiş metin çıktısı twts_gsub olarak önceden yüklendi.
Bu egzersiz için tm kütüphanesi önceden yüklendi.
Bu egzersiz
R ile Sosyal Medya Verilerini Analiz Etme
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Convert text in "twt_gsub" dataset to a text corpus and view output
twt_corpus <- twt_gsub %>%
___() %>%
___()
head(twt_corpus$___)