Matice vzdáleností a dendrogram

Jednoduchý způsob, jak provést clusterovou analýzu slov, je pomocí dendrogramu nad maticí termín–dokument. Jakmile máš TDM, můžeš zavolat dist() a spočítat rozdíly mezi jednotlivými řádky matice.

Dalším krokem je zavolat hclust(), který provede clusterovou analýzu nad neshodami z matice vzdáleností. Nakonec můžeš vizualizovat vzdálenosti frekvencí slov pomocí dendrogramu a funkce plot(). V text miningu dendrogramy často odhalí zajímavé závislosti nebo skupiny příbuzných slov.

Podívej se na tabulku ročních srážek z předchozího videa. Cleveland a Portland mají stejné množství srážek, takže jejich vzdálenost je 0. Dá se tedy očekávat, že tato dvě města vytvoří jeden cluster, zatímco New Orleans bude stát stranou – srážek tam totiž padá výrazně víc.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Datový rámec rain je v tvém pracovním prostředí předem načtený.

Vytvoř dist_rain pomocí funkce dist() aplikované na hodnoty ve druhém sloupci datového rámce rain.
Vypiš matici dist_rain do konzole.
Vytvoř hc provedením clusterové analýzy – zavolej hclust() na dist_rain.
Vykresli objekt hc pomocí plot() s parametrem labels = rain$city, aby se zobrazily názvy měst.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Create dist_rain
___ <- ___(___)

# View the distance matrix
___

# Create hc
___ <- ___(___)

# Plot hc
___(___, ___)

Upravit a spustit kód