1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

句読点、数字、そしてトークン

前のチャプターの最後で、SMS メッセージのデータセットを読み込みました。各メッセージには「spam」(ラベル 1)または「ham」(ラベル 0)が付いています。ここからは、このデータを使って分類器モデルを作成します。

その前に、SMS メッセージを次の手順で前処理します。

  • 句読点と数字を削除する
  • トークン化する(単語に分割する)
  • ストップワードを削除する
  • ハッシングトリックを適用する
  • TF-IDF 表現に変換する

この演習では、句読点と数字を削除し、その後にメッセージをトークン化します。

SMS データは sms として利用できます。

指示

100 XP
  • 正規表現で置換する関数と、トークン化するための機能をインポートします。
  • text 列に含まれるすべての句読点をスペースに置き換えます。数字についても同様に、text 列のすべての数字をスペースに置き換えます。
  • text 列をトークンに分割し、出力列名を words とします。