1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

テキストマイニングをちょっと体験

最も出現頻度の高い単語を見るだけで、著者の意図や主題が見えてくることがあります。

バグ・オブ・ワーズによるテキストマイニングの核となる発想は、文書集合にわたって用語や「n-gram」を数えることです。次の文を考えてみましょう。これは text として保存され、ワークスペースで利用できます。

text <- "Text mining usually involves the process of structuring the input text. The overarching goal is, essentially, to turn text into data for analysis, via the application of natural language processing (NLP) and analytical methods."

上の文で単語を手作業で数えるのは大変です。幸い、qdap パッケージを使えばもっと簡単にできます。freq_terms 関数に 4 を指定して呼び出すだけで、text に含まれる最頻出の単語トップ4(同率を含む)を簡単に求められます。

frequent_terms <- freq_terms(text, 4)

frequent_terms オブジェクトには、すべてのユニークな単語とその出現回数が保存されます。あとは、この frequent_terms オブジェクトに対して plot 関数を呼び出すだけで、棒グラフを描画できます。

plot(frequent_terms)

指示

100 XP

ワークスペースに、いくつかの文を含む new_text オブジェクトを用意しています。

  • qdap パッケージを読み込みます。
  • new_text をコンソールに出力します。
  • new_text の最頻出語トップ10で構成される term_count を作成します。
  • term_count の結果で棒グラフを描画します。