1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Przygotuj TDM przyjazny dendrogramowi

Skoro wiesz już, jak tworzyć dendrogram, możesz zastosować tę wiedzę w praktyce. Najpierw jednak musisz ograniczyć liczbę słów w TDM za pomocą funkcji removeSparseTerms() z pakietu tm. Po co w ogóle dostosowywać rzadkość TDM/DTM?

TDM i DTM są rzadkie – oznacza to, że zawierają głównie zera. Warto pamiętać, że 1000 tweetów może dać TDM z ponad 3000 terminów! Dendrogram z tak dużą liczbą elementów byłby bardzo trudny do odczytania – szczególnie przy większych zbiorach tekstu.

W praktyce zawodowej dobry dendrogram opiera się na TDM zawierającym od 25 do 70 terminów. Powyżej 70 terminów wizualizacja staje się zagracona i nieczytelna. Poniżej 25 terminów dendrogram może nie ujawnić istotnych i wartościowych klastrów.

W funkcji removeSparseTerms() parametr sparse kontroluje liczbę terminów pozostawionych w TDM. Im bliżej 1, tym więcej terminów zostaje zachowanych. Wartość ta reprezentuje próg odcięcia – określa maksymalny odsetek zer dopuszczalnych dla każdego terminu w TDM.

Instrukcje

100 XP

tweets_tdm został utworzony na podstawie tweetów o chardonnay.

  • Wyświetl wymiary tweets_tdm w konsoli.
  • Utwórz tdm1, stosując removeSparseTerms() z parametrem sparse = 0.95 na tweets_tdm.
  • Utwórz tdm2, stosując removeSparseTerms() z parametrem sparse = 0.975 na tweets_tdm.
  • Wyświetl tdm1 w konsoli, aby sprawdzić, ile terminów pozostało.
  • Wyświetl tdm2 w konsoli, aby sprawdzić, ile terminów pozostało.