BaşlayınÜcretsiz Başlayın

TM tazeleme (II)

Şimdi bir Belge Terim Matrisi (DTM) oluşturalım. Bir DTM'de:

  • Matrisin her satırı bir belgeyi temsil eder.
  • Her sütun benzersiz bir sözcük belirtecidir.
  • Matrisin değerleri, tek bir belgenin sözcük kullanımına karşılık gelir.

DTM, birçok bag of words analizinin temelidir. Kursun ilerleyen kısımlarında, ilgili Terim Belge Matrisi'ni (TDM) de kullanacaksın. Bu, transpozdur; yani sütunlar belgeleri, satırlar benzersiz sözcük belirteçlerini temsil eder.

Korpusu temizledikten ("clean_corpus()" kullanarak) sonra bir DTM oluşturmalısın. Bunu yapmak için, korpus nesnesi üzerinde DocumentTermMatrix() çağır.

tm_dtm <- DocumentTermMatrix(tm_clean)

Daha kapsamlı bir hatırlatmaya ihtiyacın olursa Text Mining with Bag-of-Words in R kursuna göz at. Umarım bu iki egzersiz, duygu analizine başlamak için seni yeterince hazırlamıştır!

Bunun Twitter'dan gerçek veri olduğunu ve bu nedenle küfür ya da başka rahatsız edici içerik barındırma riski olduğunu unutma (bu egzersizde ve gerçek Twitter verisi kullanan sonraki egzersizlerde).

Bu egzersiz

R ile Duygu Analizi

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

clean_text adında, kahveden bahseden 1000 tweet içeren bir VCorpus() nesnesi oluşturduk. Tweet'ler daha önce bahsedilen ön işleme adımlarıyla temizlendi ve amacın bundan bir DTM oluşturmak.

  • clean_text korpusuna DocumentTermMatrix() uygulayarak tf_dtm adlı, terim sıklığı ile ağırlıklandırılmış bir DTM oluştur.
  • DocumentTermMatrix() nesnesini as.matrix() ile basit bir matrise dönüştür. Yeni nesneye tf_dtm_m adını ver.
  • Matrisin boyutlarını dim() ile kontrol et.
  • Köşeli parantez indeksleme kullanarak matrisin bir alt kümesini görüntüle.
  • Satırlar 16'dan 20'ye, sütunlar 2975'ten 2985'e kadar seç
  • "working" sözcüğünün frekans değerini not et.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# clean_text is pre-defined
clean_text

# Create tf_dtm
tf_dtm <- ___

# Create tf_dtm_m
tf_dtm_m <- ___

# Dimensions of DTM matrix
___

# Subset part of tf_dtm_m for comparison
___[___, ___]
Kodu Düzenle ve Çalıştır