Belge-terim matrisi oluştur
Umarım tüm bu temel metin madenciliği çalışmalarından sonra çok yorulmamışsındır! Her ihtimale karşı, kahveye geri dönelim ve kahve tweet'lerinden bir belge-terim matrisi oluştururken biraz Starbucks alalım.
coffee.csv dosyasından başlayarak, yaygın dönüşümleri kullanıp clean_corp adlı temiz bir korpus oluşturduk.
Belge-terim matrisi, her belgenin bir satır olarak temsil edilmesini istediğinde kullanılır. Bu, örneğin satırlarda yazarları karşılaştırıyorsan ya da veriler kronolojik düzenlendiyse ve zaman serisini korumak istiyorsan faydalı olabilir. tm paketi "simple triplet matrix" sınıfını kullanır. Ancak, çoğu zaman DTM'yi as.matrix() ile yeniden sınıflandırmak, nesneyi incelemek ve üzerinde işlem yapmak açısından daha kolaydır.
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
clean_corpüzerineDocumentTermMatrix()uygulayarakcoffee_dtm'yi oluştur.coffee_dtm'nin matris sürümü olancoffee_m'yias.matrix()kullanarak oluştur.coffee_m'nin boyutlarınıdim()fonksiyonuyla konsola yazdır. Satır ve sütun sayılarına dikkat et.- Belgeler (satırlar) 25'ten 35'e ve terimler (sütunlar)
"star"ve"starbucks"olan alt kümeyicoffee_miçinden yazdır.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Create the document-term matrix from the corpus
coffee_dtm <- ___
# Print out coffee_dtm data
coffee_dtm
# Convert coffee_dtm to a matrix
coffee_m <- ___
# Print the dimensions of coffee_m
___
# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]