Macierz odległości i dendrogram

Prostym sposobem na przeprowadzenie analizy skupień słów jest dendrogram oparty na macierzy termów i dokumentów. Gdy masz już macierz TDM, możesz wywołać dist(), aby obliczyć różnice między poszczególnymi wierszami macierzy.

Następnie wywołujesz hclust(), aby przeprowadzić analizę skupień na podstawie różnic z macierzy odległości. Na koniec możesz zwizualizować odległości częstości słów za pomocą dendrogramu i funkcji plot(). W eksploracji tekstu dendrogram często pozwala odkryć ciekawe zależności i grupy powiązanych słów.

Rozważ tabelę rocznych opadów, którą widziałeś w ostatnim filmie. Cleveland i Portland mają taką samą ilość opadów, więc ich odległość wynosi 0. Można się spodziewać, że te dwa miasta utworzą jedno skupienie, a Nowy Orlean znajdzie się osobno – ze względu na znacznie wyższe opady.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Ramka danych rain została wcześniej wczytana do twojego środowiska pracy.

Utwórz dist_rain, używając funkcji dist() na wartościach z drugiej kolumny ramki rain.
Wyświetl macierz dist_rain w konsoli.
Utwórz hc, przeprowadzając analizę skupień za pomocą hclust() na obiekcie dist_rain.
Wywołaj plot() na obiekcie hc z argumentem labels = rain$city, aby dodać nazwy miast.

ćwiczenie

Macierz odległości i dendrogram

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie