Belge-terim matrisi oluştur

Umarım tüm bu temel metin madenciliği çalışmalarından sonra çok yorulmamışsındır! Her ihtimale karşı, kahveye geri dönelim ve kahve tweet'lerinden bir belge-terim matrisi oluştururken biraz Starbucks alalım.

coffee.csv dosyasından başlayarak, yaygın dönüşümleri kullanıp clean_corp adlı temiz bir korpus oluşturduk.

Belge-terim matrisi, her belgenin bir satır olarak temsil edilmesini istediğinde kullanılır. Bu, örneğin satırlarda yazarları karşılaştırıyorsan ya da veriler kronolojik düzenlendiyse ve zaman serisini korumak istiyorsan faydalı olabilir. tm paketi "simple triplet matrix" sınıfını kullanır. Ancak, çoğu zaman DTM'yi as.matrix() ile yeniden sınıflandırmak, nesneyi incelemek ve üzerinde işlem yapmak açısından daha kolaydır.

Bu egzersiz, kursun bir parçasıdır

R ile Bag-of-Words ile Metin Madenciliği

Kursa Göz Atın

Egzersiz talimatları

clean_corp üzerine DocumentTermMatrix() uygulayarak coffee_dtm'yi oluştur.
coffee_dtm'nin matris sürümü olan coffee_m'yi as.matrix() kullanarak oluştur.
coffee_m'nin boyutlarını dim() fonksiyonuyla konsola yazdır. Satır ve sütun sayılarına dikkat et.
Belgeler (satırlar) 25'ten 35'e ve terimler (sütunlar) "star" ve "starbucks" olan alt kümeyi coffee_m içinden yazdır.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create the document-term matrix from the corpus
coffee_dtm <- ___

# Print out coffee_dtm data
coffee_dtm

# Convert coffee_dtm to a matrix
coffee_m <- ___

# Print the dimensions of coffee_m
___

# Review a portion of the matrix to get some Starbucks
___[___:___, c("star", "___")]

Kodu Düzenle ve Çalıştır