1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Dendrogram amzn_cons

Zdá se, že recenze jasně poukazují na dlouhou pracovní dobu a špatnou rovnováhu mezi prací a osobním životem. Jako jednoduchou techniku shlukování se rozhodneš provést hierarchické shlukování a vytvořit dendrogram, abys zjistil/a, jak úzce spolu tyto výrazy souvisejí.

Pokyny

100 XP
  • Vytvoř amzn_c_tdm jako TermDocumentMatrix pomocí amzn_cons_corp s argumentem control = list(tokenize = tokenizer).
  • Vypiš amzn_c_tdm do konzole.
  • Vytvoř amzn_c_tdm2 tak, že na amzn_c_tdm aplikuješ funkci removeSparseTerms() s argumentem sparse nastaveným na .993.
  • Vytvoř hc, objekt hierarchického shlukování, a to vnořením matice vzdáleností dist(amzn_c_tdm2) do funkce hclust(). Nezapomeň funkci hclust() předat také argument method = "complete".
  • Vykresli hc, abys zobrazil/a shluky bigramů a zjistil/a, k jakým závěrům tě koncepty ze sekce nevýhod Amazonu mohou přivést.