1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ木ベースのMachine Learning

Connected

Exercise

最初の分類木を学習してみましょう

この演習では、UCI Machine Learning Repository にある Wisconsin Breast Cancer Dataset を使います。腫瘍の平均半径(radius_mean)と、凹状点の平均個数(concave points_mean)という2つの特徴量に基づいて、腫瘍が悪性か良性かを予測します。

データセットはすでにワークスペースに読み込まれており、80% が訓練、20% がテストに分割されています。特徴量行列は X_train と X_test、ラベル配列は y_train と y_test に割り当てられています。クラス1は悪性、クラス0は良性を表します。結果を再現可能にするため、SEED という変数を1に設定しています。

Instructions

100 XP
  • sklearn.tree から DecisionTreeClassifier をインポートします。

  • 最大深さを6にした DecisionTreeClassifier を dt としてインスタンス化します。

  • 訓練データに dt を学習させます。

  • テストデータのラベルを予測し、結果を y_pred に代入します。