Feature hashing と LabelPoint

メールを単語に分割した後、生データセットの 'spam' と 'non-spam' は現在、1行メッセージで構成されています。これらのメッセージを分類するには、テキストを特徴量に変換する必要があります。

この演習の後半では、まず HashingTF() インスタンスを作成し、テキストを200次元のベクトルにマッピングします。次に、'spam' と 'non-spam' の各メッセージを単語に分割し、各単語を1つの特徴量にマッピングします。これらの特徴量を使って、メッセージが 'spam' か 'non-spam' かを判定します。続いて、特徴量にラベルを付けます。正当なメッセージのラベルは 0（スパムではない）、'spam' メッセージのラベルは 1（スパムである）です。最後に、両方のラベル付きデータセットを結合します。

作業スペースには SparkContext sc が利用可能です。また、spam_words と non_spam_words の変数はすでに用意されています。