tm の一般的なクリーニング関数

2通りのコーパス作成方法を学んだので、次はテキストのクリーニング（前処理）に集中しましょう。最初は短いテキストを整え、その後でより大きなコーパスに進みます。

Bag-of-Words によるテキストマイニングでは、クリーニングによって用語を集約しやすくなります。たとえば、"miner"、"mining"、"mine" を1つの用語として扱うのが適切な場合があります。具体的な前処理の手順はプロジェクトによって異なります。たとえば、ツイートで使われる語と法的文書で使われる語は大きく異なるため、クリーニングのやり方も大きく変わります。

一般的な前処理関数には次のものがあります。

tolower(): すべての文字を小文字にする
removePunctuation(): 句読点をすべて削除する
removeNumbers(): 数字を削除する
stripWhitespace(): 余分な空白を削除する

tolower() はベース R の関数で、他の3つは tm パッケージから提供されます。以降、必要に応じて tm と qdap はこちらで読み込みます。新しいパッケージを紹介するときは、最初の一度だけみなさんに読み込んでいただきます。

スクリプトには、1つの文を含む変数 text が用意されています。

次の各関数を text に適用し、結果をコンソールに表示してください。

- `tolower()`
- `removePunctuation()`
- `removeNumbers()`
- `stripWhitespace()`

演習

tm の一般的なクリーニング関数

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習