BaşlayınÜcretsiz Başlayın

Bir terim-belge matrisi oluştur

Epeyini bitirdin! Şimdiye kadar öğrendiğin kavramlara dayalı bazı eğlenceli görselleştirme ve analizlere geçmeden önceki çok da heyecanlı olmayan temel işleri neredeyse tamamladın.

Bu egzersizde, benzer bir işlem yapıyorsun ama belge-terim matrisinin transpozunu alıyorsun. Bu durumda, terim-belge matrisinde terimler ilk sütunda yer alır ve belgeler üstte, ayrı sütun adlarıdır.

TDM genellikle dil analizi için kullanılan matristir. Bunun nedeni, büyük olasılıkla yazar veya belge sayısından daha fazla terime sahip olmandır ve genel olarak satır sayısının sütun sayısından fazla olması hayatı kolaylaştırır. Bilgiyi analiz etmeye başlamanın kolay bir yolu, TDM üzerinde as.matrix() kullanarak matrisi basit bir matrise dönüştürmektir.

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • clean_corp üzerine TermDocumentMatrix() uygulayarak coffee_tdm oluştur.
  • coffee_tdm'yi as.matrix() kullanarak matrise çevir ve coffee_m olarak kaydet.
  • coffee_m'nin boyutlarını konsola yazdır. Satır ve sütun sayılarını not et.
  • coffee_m'nin terim (satır) olarak "star" ve "starbucks", belge (sütun) olarak da 25 ile 35 arasını içeren alt kümesini yazdır.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Create a term-document matrix from the corpus
coffee_tdm <- ___

# Print coffee_tdm data
coffee_tdm

# Convert coffee_tdm to a matrix
coffee_m <- ___

# Print the dimensions of the matrix
___

# Review a portion of the matrix
___[___, ___]
Kodu Düzenle ve Çalıştır