コーパスに前処理ステップを適用する

tm パッケージには、コーパス全体にクリーニング関数を適用できる tm_map() 関数があり、クリーニング作業を簡単にしてくれます。

tm_map() は引数を2つ取ります。コーパスとクリーニング関数です。ここで removeNumbers() は tm パッケージの関数です。

corpus <- tm_map(corpus, removeNumbers)

互換性のため、base R や qdap の関数は content_transformer() でラップする必要があります。

corpus <- tm_map(corpus, content_transformer(replace_abbreviation))

同じ関数を複数のコーパスに適用することもあるので、エディタに表示されているようなカスタム関数を使うと、時間（とコード行数）を節約できます。clean_corpus() は引数として corpus を1つ取り、一連のクリーニング関数を順番に適用して更新後のコーパスを返します。

クリーニング手順の順番は重要です。たとえば、先に removeNumbers() を実行してから replace_number() を実行すると、2つ目の関数は変更対象を見つけられません。結果は必ずチェック、再チェック、再々チェックしましょう！

サンプルコード内のカスタム関数 clean_corpus() を編集して、次の順に適用してください:
- tm の removePunctuation()。
- base R の tolower()。
- ストップワードリストに "mug" を追加。
- tm の stripWhitespace()。

演習