1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Macierz odległości i dendrogram

Prostym sposobem na przeprowadzenie analizy skupień słów jest dendrogram oparty na macierzy termów i dokumentów. Gdy masz już macierz TDM, możesz wywołać dist(), aby obliczyć różnice między poszczególnymi wierszami macierzy.

Następnie wywołujesz hclust(), aby przeprowadzić analizę skupień na podstawie różnic z macierzy odległości. Na koniec możesz zwizualizować odległości częstości słów za pomocą dendrogramu i funkcji plot(). W eksploracji tekstu dendrogram często pozwala odkryć ciekawe zależności i grupy powiązanych słów.

Rozważ tabelę rocznych opadów, którą widziałeś w ostatnim filmie. Cleveland i Portland mają taką samą ilość opadów, więc ich odległość wynosi 0. Można się spodziewać, że te dwa miasta utworzą jedno skupienie, a Nowy Orlean znajdzie się osobno – ze względu na znacznie wyższe opady.

       city rainfall
  Cleveland    39.14
   Portland    39.14
     Boston    43.77
New Orleans    62.45

Instrukcje

100 XP

Ramka danych rain została wcześniej wczytana do twojego środowiska pracy.

  • Utwórz dist_rain, używając funkcji dist() na wartościach z drugiej kolumny ramki rain.
  • Wyświetl macierz dist_rain w konsoli.
  • Utwórz hc, przeprowadzając analizę skupień za pomocą hclust() na obiekcie dist_rain.
  • Wywołaj plot() na obiekcie hc z argumentem labels = rain$city, aby dodać nazwy miast.