1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. XGBoost で学ぶ極限の勾配ブースティング

Connected

Bài tập

決定木

この演習では、scikit-learn に同梱されている breast cancer データセットに対して、scikit-learn の DecisionTreeClassifier を用いてシンプルな決定木を作成します。

このデータセットには、乳房生検から得られた各腫瘍のさまざまな寸法(周長やテクスチャなど)の数値測定値と、単一の目的変数(腫瘍が悪性か良性か)が含まれます。

サンプル(測定値)のデータセットは X に、腫瘍ごとの目的値は y にあらかじめ読み込んであります。ここでは、まず完全なデータセットを学習用とテスト用に分割し、その後 DecisionTreeClassifier を学習させます。max_depth というパラメータを指定してください。このモデルでは他にも多くのパラメータを変更できます。すべての一覧は こちら を参照してください。

Hướng dẫn

100 XP
  • 次をインポートします:
    • sklearn.model_selection から train_test_split。
    • sklearn.tree から DecisionTreeClassifier。
  • データの 20% をテスト用に使うように学習用・テスト用集合を作成します。random_state は 123 を使用してください。
  • max_depth を 4 として、dt_clf_4 という名前の DecisionTreeClassifier をインスタンス化します。このパラメータは、葉ノードに到達するまでに許される連続した分割の最大回数を指定します。
  • 分類器を学習用データに当てはめ、テストセットのラベルを予測します。