1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

スパムと非スパムデータの読み込み

Logistic Regression は、カテゴリカルな応答を予測するための一般的な手法です。最もよくある応用例のひとつが、メッセージやメールのスパム判定です。この3部構成の演習では、Spark MLlib を使ってロジスティック回帰によるメールのスパム分類器を作成します。以下はスパム分類器を作るための簡単な手順です。

  • メールを表す文字列の RDD を作成します。
  • MLlib の特徴量抽出アルゴリズムを実行して、テキストをベクトルの RDD に変換します。
  • そのベクトルの RDD に分類アルゴリズムを適用して、新しいデータ点を分類するモデルオブジェクトを得ます。
  • MLlib の評価関数のいずれかを使って、テストデータセット上でモデルを評価します。

演習の最初のパートでは、'spam' と 'ham'(非スパム)のファイルを RDD に読み込み、メールを単語に分割し、各 RDD の最初の要素を確認します。

作業スペースには SparkContext の sc が用意されています。さらに、'spam' ファイルへのパスを表す file_path_spam 変数と、'non-spam' ファイルへのパスを表す file_path_non_spam 変数もすでに利用できます。

指示

100 XP
  • 'spam' 用と 'non-spam (ham)' 用に、それぞれ1つずつ RDD を作成します。
  • 'spam' と 'non-spam' の各 RDD で、各メールを単語に分割します。
  • 分割後の 'spam' と 'non-spam' の各 RDD で、最初の要素を表示します。