Jednoduchý word cloud

V tuto chvíli jsi si dal/a už příliš mnoho kávy. Navíc nejčastější slova jako „shop", „morning" nebo „drinking" toho o datech moc neříkají.

Aby ses odměnil/a za to, že jsi se dostal/a až sem, zkusíme to na jiné sadě 1 000 tweetů. Prozatím nevíš, co mají společného – zkus to ale přijít pomocí word cloudu. Hodnoty četnosti termínů z těchto tweetů jsou předem načteny do tvého pracovního prostoru.

Word cloud je vizualizace termínů. Velikost písma bývá úměrná četnosti a barvy někdy znázorňují další měřenou hodnotu. Pro teď to necháme jednoduché: velikost odpovídá četnosti jednotlivých slov a použijeme jedinou barvu.

Jak jsi viděl/a ve videu, funkce wordcloud() se používá takto:

wordcloud(words, frequencies, max.words = 500, colors = "blue")

Analýzy text miningu často obsahují jednoduché word cloudy. Jsou možná až příliš rozšířené, ale stále se hodí pro rychlé pochopení většího množství textu!

Do tvého pracovního prostoru je načtena proměnná term_frequency.

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Načti balíček wordcloud.
Vypiš prvních 10 záznamů z term_frequency.
Extrahuj termíny pomocí funkce names() aplikované na term_frequency. Výsledný vektor řetězců pojmenuj terms_vec.
Vytvoř wordcloud() – jako slova použij terms_vec a jako hodnoty term_frequency. Přidej parametry max.words = 50 a colors = "red".

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Load wordcloud package


# Print the first 10 entries in term_frequency


# Vector of terms


# Create a word cloud for the values in word_freqs

Upravit a spustit kód