1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

ストップワードとハッシング

次のステップでは、まず stopwords を除去し、続いてハッシングトリックを適用し、結果を TF-IDF に変換します。

これらの概念の簡単なおさらいです。

  • ハッシングトリックは、非常に大きい(場合によっては無限の)集合(この場合はSMSメッセージに含まれるすべての単語)を、より小さな有限個の値に写像する、高速かつ省メモリな方法です。
  • TF-IDF 行列は、各文書に対して単語がどれだけ重要かを表します。各文書内での単語の出現頻度に加えて、コレクション全体での出現頻度も考慮します。

トークン化済みのSMSデータは、sms の words という列に保存されています。空白の扱いを整理してあるため、トークン化後のテキストはより見やすくなっています。

指示

100 XP
  • StopWordsRemover、HashingTF、IDF クラスをインポートします。
  • StopWordsRemover オブジェクトを作成します(入力列は words、出力列は terms)。sms に適用します。
  • HashingTF オブジェクトを作成します(前のステップの出力を入力にし、出力列は hash)。wrangled に適用します。
  • IDF オブジェクトを作成します(前のステップの出力を入力にし、出力列は features)。wrangled に適用します。