1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

Logistic Regression モデルの学習

データのラベルと特徴量を作成できたので、いよいよそれを使って学習するモデルを構築します。ただし学習に入る前に、この演習の最後のパートでは、データを学習用とテスト用に分割し、学習データで Logistic Regression モデルを実行し、最後に学習済みモデルの精度を確認します。

作業環境には SparkContext の sc と、samples 変数が用意されていることを思い出してください。

指示

100 XP
  • 結合済みデータを 80:20 の比率で学習用とテスト用に分割します。
  • 学習用データセットで Logistic Regression モデルを学習します。
  • 学習済みモデルを使ってテストデータセットの予測ラベルを作成します。
  • zip 関数を使って、テストデータセットのラベルと予測データセットのラベルを結合します。
  • 元のラベルと予測ラベルを用いて学習済みモデルの精度を計算し、出力します。