1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

SMSスパムのパイプライン

しばらくのあいだ、SMSデータは扱っていませんでした。前回は次のことを行いました。

  • テキストをトークンに分割する
  • ストップワードを除去する
  • ハッシングトリックを適用する
  • カウントからIDFに変換する
  • ロジスティック回帰モデルを学習する

これらの各ステップは個別に実行していました。これはパイプラインに最適なケースですね!

Pipeline と LogisticRegression クラスはすでにセッションにインポートされているので、そこは気にしなくて大丈夫です!

指示

100 XP
  • テキストをトークンに分割するオブジェクトを作成します。
  • ストップワードを除去するオブジェクトを作成します。入力列名を明示的に与えるのではなく、直前のオブジェクトの getOutputCol() メソッドを使います。
  • ハッシングトリックを適用し、データを TF-IDF に変換するオブジェクトを作成します。ここでも getOutputCol() メソッドを使います。
  • 上記のすべてのステップに加えて、ロジスティック回帰モデルを作成するオブジェクトも含めたパイプラインを作成します。