TM tazeleme (I)
Text Mining: Bag of Words kursunda, bir derlemenin (corpus) bir metinler kümesi olduğunu ve metni ön işlemek için bazı işlevleri öğrendin. Kısaca hatırlatmak gerekirse, bir derleme oluşturmanın ve temizlemenin bir yolu aşağıdaki işlevleri kullanmaktır. Bu farklı bir kurs olsa da, duygu analizi metin madenciliğinin bir parçasıdır; o yüzden kısa bir tazeleme faydalı olacaktır.
- Bir karakter vektörünü
VectorSource()ile bir metin kaynağına dönüştür. - Bir metin kaynağını
VCorpus()ile bir derlemeye dönüştür. - Derlemeden istenmeyen karakterleri
tmpaketindekiremovePunctuation()vestripWhitespace(), ayrıcaqdappaketindekireplace_abbreviation()gibi temizleme işlevleriyle kaldır.
Bu egzersizde, uygulanmasını kolaylaştırmak için standart ön işleme işlevlerini kullanan özel bir clean_corpus() işlevi hazırlandı.
clean_corpus(), VCorpus() çıktısını kabul eder ve temizleme işlevlerini uygular. Örneğin:
processed_corpus <- clean_corpus(my_corpus)
Bu egzersiz
R ile Duygu Analizi
kursunun bir parçasıdırEgzersiz talimatları
R oturumunda iki küçük belgeden oluşan bir metin vektörü tm_define ve clean_corpus() işlevi mevcut.
VectorSource()'utm_defineüzerinde uygulayaraktm_vectoradında bir nesne oluştur.VCorpus()'utm_vectorüzerinde kullanaraktm_corpusoluştur.content()iletm_corpusiçindeki ilk belgenin içeriğini incele.- Derlemedeki belgelere liste söz dizimiyle erişilir; bu yüzden çift köşeli parantez kullan, örn.
[[1]].
- Derlemedeki belgelere liste söz dizimiyle erişilir; bu yüzden çift köşeli parantez kullan, örn.
- Özel
clean_corpus()işlevinitm_corpusüzerinde çalıştırarak derleme metnini temizle. Bu yeni nesneyetm_cleanadını ver. clean_corpus()uygulandıktan sonra metnin nasıl değiştiğini görmek için yenitm_cleannesnesinin ilk belgesini tekrar incele.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define
# Create a VectorSource
tm_vector <- ___
# Apply VCorpus
tm_corpus <- ___
# Examine the first document's contents
___(___[[___]])
# Clean the text
tm_clean <- ___
# Reexamine the contents of the first doc
___