Rychlá ochutnávka text miningu

Záměr autora a hlavní myšlenky textu dokážeme někdy odhalit už pohledem na nejčastěji se vyskytující slova.

Metoda bag of words je v jádru způsob, jak počítat výskyty termínů neboli n-gramů v kolekci dokumentů. Vezmi si například následující věty, které jsou uložené v proměnné text a dostupné v tvém pracovním prostředí:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Ruční počítání slov by bylo pěkná otrava! Naštěstí balíček qdap nabízí mnohem lepší řešení. Čtyři nejčastěji se vyskytující termíny (včetně shodných výskytů) v proměnné text snadno zjistíš voláním funkce freq_terms s parametrem 4.

frequent_terms <- freq_terms(text, 4)

Objekt frequent_terms uchovává všechna unikátní slova spolu s jejich počtem výskytů. Sloupcový graf pak vytvoříš jednoduše tak, že na objekt frequent_terms zavoláš funkci plot.

plot(frequent_terms)

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

V tvém pracovním prostředí je připravený objekt new_text obsahující několik vět.

Načti balíček qdap.
Vypiš new_text do konzole.
Vytvoř objekt term_count obsahující 10 nejčastějších termínů z new_text.
Vykresli sloupcový graf s výsledky z objektu term_count.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Load qdap
___

# Print new_text to the console
new_text

# Find the 10 most frequent terms: term_count
term_count <- ___

# Plot term_count
___

Upravit a spustit kód