句読点、数字、そしてトークン

前のチャプターの最後で、SMS メッセージのデータセットを読み込みました。各メッセージには「spam」（ラベル 1）または「ham」（ラベル 0）が付いています。ここからは、このデータを使って分類器モデルを作成します。

その前に、SMS メッセージを次の手順で前処理します。

句読点と数字を削除する
トークン化する（単語に分割する）
ストップワードを削除する
ハッシングトリックを適用する
TF-IDF 表現に変換する

この演習では、句読点と数字を削除し、その後にメッセージをトークン化します。

SMS データは sms として利用できます。

正規表現で置換する関数と、トークン化するための機能をインポートします。
text 列に含まれるすべての句読点をスペースに置き換えます。数字についても同様に、text 列のすべての数字をスペースに置き換えます。
text 列をトークンに分割し、出力列名を words とします。