1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracja tekstu metodą Bag-of-Words w R

Connected

ćwiczenie

Szybki smak eksploracji tekstu

Czasem można zorientować się w intencjach autora i głównych wątkach tekstu, analizując najczęściej występujące słowa.

Metoda bag-of-words to w swojej istocie sposób na zliczanie terminów, czyli n-gramów, w zbiorze dokumentów. Rozważ poniższe zdania, które zostały zapisane w zmiennej text i są dostępne w twoim środowisku:

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

Ręczne zliczanie słów w powyższych zdaniach byłoby żmudnym zajęciem! Na szczęście pakiet qdap oferuje wygodniejsze rozwiązanie. Możesz łatwo znaleźć 4 najczęściej występujące terminy (z uwzględnieniem remisów) w zmiennej text, wywołując funkcję freq_terms i podając wartość 4.

frequent_terms <- freq_terms(text, 4)

Obiekt frequent_terms przechowuje wszystkie unikalne słowa wraz z liczbą ich wystąpień. Następnie możesz utworzyć wykres słupkowy, wywołując funkcję plot na obiekcie frequent_terms.

plot(frequent_terms)

Instrukcje

100 XP

W twoim środowisku został utworzony obiekt new_text zawierający kilka zdań.

  • Wczytaj pakiet qdap.
  • Wyświetl zawartość new_text w konsoli.
  • Utwórz obiekt term_count zawierający 10 najczęściej występujących terminów w new_text.
  • Narysuj wykres słupkowy na podstawie wyników zapisanych w term_count.