1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶBag-of-Wordsによるテキストマイニング

Connected

演習

tm の一般的なクリーニング関数

2通りのコーパス作成方法を学んだので、次はテキストのクリーニング(前処理)に集中しましょう。最初は短いテキストを整え、その後でより大きなコーパスに進みます。

Bag-of-Words によるテキストマイニングでは、クリーニングによって用語を集約しやすくなります。たとえば、"miner"、"mining"、"mine" を1つの用語として扱うのが適切な場合があります。具体的な前処理の手順はプロジェクトによって異なります。たとえば、ツイートで使われる語と法的文書で使われる語は大きく異なるため、クリーニングのやり方も大きく変わります。

一般的な前処理関数には次のものがあります。

  • tolower(): すべての文字を小文字にする
  • removePunctuation(): 句読点をすべて削除する
  • removeNumbers(): 数字を削除する
  • stripWhitespace(): 余分な空白を削除する

tolower() はベース R の関数で、他の3つは tm パッケージから提供されます。以降、必要に応じて tm と qdap はこちらで読み込みます。新しいパッケージを紹介するときは、最初の一度だけみなさんに読み込んでいただきます。

スクリプトには、1つの文を含む変数 text が用意されています。

指示

100 XP

次の各関数を text に適用し、結果をコンソールに表示してください。

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`