1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Połącz wszystko razem: dendrogram tekstowy

Czas wykorzystać swoje umiejętności i stworzyć pierwszy dendrogram tekstowy. Pamiętaj, że dendrogramy upraszczają informacje, pomagając ci nadać sens danym – podobnie jak średnia mówi ci coś o populacji, ale nie wszystko. Oba podejścia mogą być mylące. W przypadku tekstów często pojawiają się niezbyt sensowne skupienia, ale czasem widać też naprawdę wartościowe.

Jedna osobliwość obiektów TDM i DTM: przed użyciem funkcji dist() trzeba je najpierw przekonwertować na macierze za pomocą as.matrix().

Analizując tweety o chardonnay, mogło cię zaskoczyć pojawienie się legendy muzyki soul – Marvina Gaye'a – w chmurze słów. Sprawdźmy, czy dendrogram pokaże to samo.

Instrukcje

100 XP
  • Utwórz tweets_tdm2, stosując funkcję removeSparseTerms() na obiekcie tweets_tdm. Użyj parametru sparse = 0.975.
  • Utwórz tdm_m, konwertując tweets_tdm2 na postać macierzową za pomocą as.matrix().
  • Utwórz tweets_dist zawierający odległości obliczone dla tdm_m przy użyciu funkcji dist().
  • Utwórz obiekt hierarchicznego grupowania o nazwie hc, wywołując hclust() na tweets_dist.
  • Narysuj dendrogram, używając plot() z obiektem hc.