決定木

これまでの3章で、Machine Learningの面接で問われる多くの側面に対応するためのさまざまなテクニックを学んできました。この章では、面接で作成や説明を求められるモデルが汎化できているか、正しく評価されているか、そして候補の中から適切に選ばれているかを確認するための方法を紹介します。

この演習では、loan_data データセットに対する決定木のハイパーパラメータチューニングを行います。ここでは、追加の二分割を行うために必要な最小サンプル数を表す min_samples_split と、木の深さを制御する max_depth をチューニングします。木を深くすると分割が増え、データからより多くの情報を捉えられます。

特徴量行列 X と目的変数ラベル y はすでにインポートされています。