1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Tworzenie macierzy termin-dokument

Zostało już niewiele pracy przygotowawczej, zanim przejdziemy do ciekawszej części – wizualizacji i analiz opartych na poznanych do tej pory koncepcjach!

W tym ćwiczeniu wykonujesz podobny proces, ale tym razem tworzysz transpozycję macierzy dokument-termin. W macierzy termin-dokument (TDM) terminy znajdują się w pierwszej kolumnie, a dokumenty są rozmieszczone w poziomie jako osobne nagłówki kolumn.

TDM jest często używaną macierzą w analizie języka. Wynika to z tego, że zazwyczaj masz więcej terminów niż autorów czy dokumentów – a praca jest łatwiejsza, gdy masz więcej wierszy niż kolumn. Prostym sposobem na rozpoczęcie analizy danych jest przekształcenie macierzy TDM w zwykłą macierz za pomocą funkcji as.matrix().

Instrukcje

100 XP
  • Utwórz coffee_tdm, stosując TermDocumentMatrix() do clean_corp.
  • Utwórz coffee_m, konwertując coffee_tdm do macierzy za pomocą as.matrix().
  • Wyświetl wymiary coffee_m w konsoli. Zwróć uwagę na liczbę wierszy i kolumn.
  • Wyświetl podzbiór coffee_m zawierający terminy (wiersze) "star" i "starbucks" oraz dokumenty (kolumny) od 25 do 35.