1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Exercises

Matice vzdáleností a dendrogram

Jednoduchý způsob, jak provést clusterovou analýzu slov, je pomocí dendrogramu nad maticí termín–dokument. Jakmile máš TDM, můžeš zavolat dist() a spočítat rozdíly mezi jednotlivými řádky matice.

Dalším krokem je zavolat hclust(), který provede clusterovou analýzu nad neshodami z matice vzdáleností. Nakonec můžeš vizualizovat vzdálenosti frekvencí slov pomocí dendrogramu a funkce plot(). V text miningu dendrogramy často odhalí zajímavé závislosti nebo skupiny příbuzných slov.

Podívej se na tabulku ročních srážek z předchozího videa. Cleveland a Portland mají stejné množství srážek, takže jejich vzdálenost je 0. Dá se tedy očekávat, že tato dvě města vytvoří jeden cluster, zatímco New Orleans bude stát stranou – srážek tam totiž padá výrazně víc.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

คำแนะนำ

100 XP

Datový rámec rain je v tvém pracovním prostředí předem načtený.

  • Vytvoř dist_rain pomocí funkce dist() aplikované na hodnoty ve druhém sloupci datového rámce rain.
  • Vypiš matici dist_rain do konzole.
  • Vytvoř hc provedením clusterové analýzy – zavolej hclust() na dist_rain.
  • Vykresli objekt hc pomocí plot() s parametrem labels = rain$city, aby se zobrazily názvy měst.