1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Jednoduchý word cloud

V tuto chvíli jsi si dal/a už příliš mnoho kávy. Navíc nejčastější slova jako „shop", „morning" nebo „drinking" toho o datech moc neříkají.

Aby ses odměnil/a za to, že jsi se dostal/a až sem, zkusíme to na jiné sadě 1 000 tweetů. Prozatím nevíš, co mají společného – zkus to ale přijít pomocí word cloudu. Hodnoty četnosti termínů z těchto tweetů jsou předem načteny do tvého pracovního prostoru.

Word cloud je vizualizace termínů. Velikost písma bývá úměrná četnosti a barvy někdy znázorňují další měřenou hodnotu. Pro teď to necháme jednoduché: velikost odpovídá četnosti jednotlivých slov a použijeme jedinou barvu.

Jak jsi viděl/a ve videu, funkce wordcloud() se používá takto:

wordcloud(words, frequencies, max.words = 500, colors = "blue")

Analýzy text miningu často obsahují jednoduché word cloudy. Jsou možná až příliš rozšířené, ale stále se hodí pro rychlé pochopení většího množství textu!

Do tvého pracovního prostoru je načtena proměnná term_frequency.

Pokyny

100 XP
  • Načti balíček wordcloud.
  • Vypiš prvních 10 záznamů z term_frequency.
  • Extrahuj termíny pomocí funkce names() aplikované na term_frequency. Výsledný vektor řetězců pojmenuj terms_vec.
  • Vytvoř wordcloud() – jako slova použij terms_vec a jako hodnoty term_frequency. Přidej parametry max.words = 50 a colors = "red".