1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Tworzenie macierzy dokumentów-terminów

Mamy nadzieję, że po tym wszystkim nadal masz energię do pracy! Na wszelki wypadek wróćmy do tematu kawy i zajrzyjmy do Starbucksa – tym razem budując macierz dokumentów-terminów na podstawie tweetów o kawie.

Punktorem wyjścia jest plik coffee.csv. Dzięki typowym przekształceniom otrzymaliśmy czysty korpus o nazwie clean_corp.

Macierz dokumentów-terminów (DTM) przydaje się wtedy, gdy chcesz, aby każdy dokument był reprezentowany jako osobny wiersz. To rozwiązanie sprawdza się na przykład przy porównywaniu autorów w wierszach albo gdy dane są ułożone chronologicznie i zależy ci na zachowaniu struktury szeregu czasowego. Pakiet tm używa klasy „simple triplet matrix". W praktyce jednak łatwiej jest manipulować obiektem i go analizować po przekształceniu DTM za pomocą as.matrix().

Instrukcje

100 XP
  • Utwórz coffee_dtm, stosując funkcję DocumentTermMatrix() do clean_corp.
  • Utwórz coffee_m – wersję macierzową coffee_dtm – używając as.matrix().
  • Wyświetl wymiary coffee_m w konsoli za pomocą funkcji dim(). Zwróć uwagę na liczbę wierszy i kolumn.
  • Wyświetl podzbiór coffee_m zawierający dokumenty (wiersze) od 25 do 35 oraz terminy (kolumny) "star" i "starbucks".