1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶ自然言語処理入門

Connected

演習

スパース行列

このレッスンでは、スパース行列について学びました。テキスト文書の数やユニークな単語数が増えると、スパース行列は計算量の観点で大きな負担になります。絵文字、スラング、頭字語など多様な表現が使われるため、ツイートで単語表現を作るとスパース行列になりやすいです。

この演習では、ロシア語ツイートのデータセットがどれくらいスパースかを計算する手順を体験します。これは、テキスト分析がどれほど素早く大きな計算問題になり得るかを示す小さな例です。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • トークン化を行い、ストップワードを除去して、データセット内のユニーク単語の総数を求めてください。