1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Dendrogram amzn_cons

Recenzje wyraźnie wskazują na długie godziny pracy i słabą równowagę między życiem zawodowym a prywatnym. Jako prostą technikę grupowania decydujesz się na hierarchiczne grupowanie i tworzysz dendrogram, aby sprawdzić, jak silnie powiązane są te wyrażenia.

Instrukcje

100 XP
  • Utwórz amzn_c_tdm jako TermDocumentMatrix na podstawie amzn_cons_corp, używając control = list(tokenize = tokenizer).
  • Wyświetl amzn_c_tdm w konsoli.
  • Utwórz amzn_c_tdm2, stosując funkcję removeSparseTerms() do amzn_c_tdm z argumentem sparse równym .993.
  • Utwórz hc – obiekt hierarchicznego grupowania – zagnieżdżając macierz odległości dist(amzn_c_tdm2) wewnątrz funkcji hclust(). Pamiętaj, aby przekazać również method = "complete" do funkcji hclust().
  • Wykreśl hc, aby zobaczyć pogrupowane bigramy i sprawdzić, do jakich wniosków mogą prowadzić dane z sekcji wad recenzji Amazonu.