BaşlayınÜcretsiz Başlayın

TM tazeleme (I)

Text Mining: Bag of Words kursunda, bir derlemenin (corpus) bir metinler kümesi olduğunu ve metni ön işlemek için bazı işlevleri öğrendin. Kısaca hatırlatmak gerekirse, bir derleme oluşturmanın ve temizlemenin bir yolu aşağıdaki işlevleri kullanmaktır. Bu farklı bir kurs olsa da, duygu analizi metin madenciliğinin bir parçasıdır; o yüzden kısa bir tazeleme faydalı olacaktır.

Bu egzersizde, uygulanmasını kolaylaştırmak için standart ön işleme işlevlerini kullanan özel bir clean_corpus() işlevi hazırlandı.

clean_corpus(), VCorpus() çıktısını kabul eder ve temizleme işlevlerini uygular. Örneğin:

processed_corpus <- clean_corpus(my_corpus)

Bu egzersiz

R ile Duygu Analizi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

R oturumunda iki küçük belgeden oluşan bir metin vektörü tm_define ve clean_corpus() işlevi mevcut.

  • VectorSource()'u tm_define üzerinde uygulayarak tm_vector adında bir nesne oluştur.
  • VCorpus()'u tm_vector üzerinde kullanarak tm_corpus oluştur.
  • content() ile tm_corpus içindeki ilk belgenin içeriğini incele.
    • Derlemedeki belgelere liste söz dizimiyle erişilir; bu yüzden çift köşeli parantez kullan, örn. [[1]].
  • Özel clean_corpus() işlevini tm_corpus üzerinde çalıştırarak derleme metnini temizle. Bu yeni nesneye tm_clean adını ver.
  • clean_corpus() uygulandıktan sonra metnin nasıl değiştiğini görmek için yeni tm_clean nesnesinin ilk belgesini tekrar incele.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# clean_corpus(), tm_define are pre-defined
clean_corpus
tm_define

# Create a VectorSource
tm_vector <- ___

# Apply VCorpus
tm_corpus <- ___

# Examine the first document's contents
___(___[[___]])

# Clean the text
tm_clean <- ___

# Reexamine the contents of the first doc
___
Kodu Düzenle ve Çalıştır