1. 学ぶ
  2. /
  3. コース
  4. /
  5. Machine Learning with PySpark

Connected

演習

Logistic Regression モデルを構築する

すでにフライトデータで Decision Tree モデルを作成しました。次は同じデータで Logistic Regression モデルを作りましょう。

目的は、フライトが少なくとも15分遅延する可能性が高いか(ラベル 1)、そうでないか(ラベル 0)を予測することです。

利用できる予測変数はいくつかありますが、ここではまず mon、depart、duration 列だけを使います。これらは数値特徴量なので、そのまま Logistic Regression モデルに利用できます。カテゴリ型の特徴量を含めるには、もう少し準備が必要です。続けていきましょう!

データは学習用とテスト用に分割されており、flights_train と flights_test として利用できます。

指示

100 XP
  • Logistic Regression 分類器を作成するためのクラスをインポートします。
  • 分類器オブジェクトを作成し、学習データで学習させます。
  • テストデータで予測を行い、混同行列を作成します。