1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Rychlá ochutnávka text miningu

Záměr autora a hlavní myšlenky textu dokážeme někdy odhalit už pohledem na nejčastěji se vyskytující slova.

Metoda bag of words je v jádru způsob, jak počítat výskyty termínů neboli n-gramů v kolekci dokumentů. Vezmi si například následující věty, které jsou uložené v proměnné text a dostupné v tvém pracovním prostředí:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Ruční počítání slov by bylo pěkná otrava! Naštěstí balíček qdap nabízí mnohem lepší řešení. Čtyři nejčastěji se vyskytující termíny (včetně shodných výskytů) v proměnné text snadno zjistíš voláním funkce freq_terms s parametrem 4.

frequent_terms <- freq_terms(text, 4)

Objekt frequent_terms uchovává všechna unikátní slova spolu s jejich počtem výskytů. Sloupcový graf pak vytvoříš jednoduše tak, že na objekt frequent_terms zavoláš funkci plot.

plot(frequent_terms)

Pokyny

100 XP

V tvém pracovním prostředí je připravený objekt new_text obsahující několik vět.

  • Načti balíček qdap.
  • Vypiš new_text do konzole.
  • Vytvoř objekt term_count obsahující 10 nejčastějších termínů z new_text.
  • Vykresli sloupcový graf s výsledky z objektu term_count.