1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Použití asociací slov

Dalším způsobem, jak zkoumat vztahy mezi slovy, je funkce findAssocs() z balíčku tm. Pro libovolné slovo spočítá findAssocs() jeho korelaci se všemi ostatními slovy v TDM nebo DTM. Skóre se pohybuje od 0 do 1. Hodnota 1 znamená, že se dvě slova v dokumentech vyskytují vždy společně, zatímco hodnota blížící se 0 říká, že se daná slova ve stejném dokumentu objevují jen zřídka.

Měj na paměti, že výpočet findAssocs() probíhá na úrovni dokumentů. Pro každý dokument, který obsahuje hledané slovo, se zjistí asociace s ostatními výrazy z těchto konkrétních dokumentů. Dokumenty bez hledaného výrazu se ignorují.

Při použití findAssocs() předej TDM nebo DTM, hledaný výraz a minimální korelaci. Funkce vrátí seznam všech ostatních výrazů, které dosahují minimálního prahu nebo ho překračují.

findAssocs(tdm, "word", 0.25)

Minimální hodnoty korelace bývají poměrně nízké kvůli různorodosti slovní zásoby. Nepřekvapuj se tedy, pokud hodnota 0.10 odhalí silnou párovou asociaci výrazů.

Tweety o kávě jsou vyčištěny a uspořádány do tweets_tdm. Vyhledáš asociaci výrazu, výsledky upravíš pomocí list_vect2df() z balíčku qdap a nakonec vytvoříš graf s kódem ggplot2 z ukázkového skriptu.

Pokyny

100 XP
  • Vytvoř proměnnou associations pomocí findAssocs() na tweets_tdm — hledej výrazy asociované se slovem "venti" s minimálním prahem 0.2.
  • Vypiš associations do konzole a prohlédni si nalezené výrazy.
  • Vytvoř associations_df voláním list_vect2df(), předej mu associations a nastav col2 na "word" a col3 na "score".
  • Spusť kód ggplot2 a vykresli bodový graf hodnot asociací.