TM tazeleme (I)

Text Mining: Bag of Words kursunda, bir derlemenin (corpus) bir metinler kümesi olduğunu ve metni ön işlemek için bazı işlevleri öğrendin. Kısaca hatırlatmak gerekirse, bir derleme oluşturmanın ve temizlemenin bir yolu aşağıdaki işlevleri kullanmaktır. Bu farklı bir kurs olsa da, duygu analizi metin madenciliğinin bir parçasıdır; o yüzden kısa bir tazeleme faydalı olacaktır.

Bir karakter vektörünü VectorSource() ile bir metin kaynağına dönüştür.
Bir metin kaynağını VCorpus() ile bir derlemeye dönüştür.
Derlemeden istenmeyen karakterleri tm paketindeki removePunctuation() ve stripWhitespace(), ayrıca qdap paketindeki replace_abbreviation() gibi temizleme işlevleriyle kaldır.

Bu egzersizde, uygulanmasını kolaylaştırmak için standart ön işleme işlevlerini kullanan özel bir clean_corpus() işlevi hazırlandı.

clean_corpus(), VCorpus() çıktısını kabul eder ve temizleme işlevlerini uygular. Örneğin:

processed_corpus <- clean_corpus(my_corpus)

Bu egzersiz, kursun bir parçasıdır

R ile Duygu Analizi

Kursa Göz Atın

Egzersiz talimatları

R oturumunda iki küçük belgeden oluşan bir metin vektörü tm_define ve clean_corpus() işlevi mevcut.

VectorSource()'u tm_define üzerinde uygulayarak tm_vector adında bir nesne oluştur.
VCorpus()'u tm_vector üzerinde kullanarak tm_corpus oluştur.
content() ile tm_corpus içindeki ilk belgenin içeriğini incele.
- Derlemedeki belgelere liste söz dizimiyle erişilir; bu yüzden çift köşeli parantez kullan, örn. [[1]].
Özel clean_corpus() işlevini tm_corpus üzerinde çalıştırarak derleme metnini temizle. Bu yeni nesneye tm_clean adını ver.
clean_corpus() uygulandıktan sonra metnin nasıl değiştiğini görmek için yeni tm_clean nesnesinin ilk belgesini tekrar incele.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___

Kodu Düzenle ve Çalıştır