1. Learn
  2. /
  3. Kurser
  4. /
  5. PySparkで学ぶBig Data入門

Connected

övning

Feature hashing と LabelPoint

メールを単語に分割した後、生データセットの 'spam' と 'non-spam' は現在、1行メッセージで構成されています。これらのメッセージを分類するには、テキストを特徴量に変換する必要があります。

この演習の後半では、まず HashingTF() インスタンスを作成し、テキストを200次元のベクトルにマッピングします。次に、'spam' と 'non-spam' の各メッセージを単語に分割し、各単語を1つの特徴量にマッピングします。これらの特徴量を使って、メッセージが 'spam' か 'non-spam' かを判定します。続いて、特徴量にラベルを付けます。正当なメッセージのラベルは 0(スパムではない)、'spam' メッセージのラベルは 1(スパムである)です。最後に、両方のラベル付きデータセットを結合します。

作業スペースには SparkContext sc が利用可能です。また、spam_words と non_spam_words の変数はすでに用意されています。

Instruktioner

100 XP
  • メール本文を200次元の特徴ベクトルにマッピングするために、HashingTF() インスタンスを作成します。
  • 'spam' と 'non-spam' の各メッセージを単語に分割し、各単語を1つの特徴量にマッピングします。
  • 特徴量にラベルを付けます:スパムは 1、非スパムは 0。
  • スパムと非スパムの両サンプルを1つのデータセットに結合します。