XGBoost の過学習を探る

最大深さの異なる3つの XGBoost モデルを学習したので、これからその性能を評価します。各モデルについて、学習データとテストデータの両方で品質を測定します。ご存じのとおり、学習データはモデルが学習に使ったデータです。テストデータは、モデルがこれまで見たことのない翌月の売上データです。

この演習の目的は、学習したいずれかのモデルが過学習していないかを見極めることです。モデルの品質を測る指標として Mean Squared Error (MSE) を使います。これは sklearn.metrics に mean_squared_error() 関数として用意されており、真の値と予測値の2つの引数を取ります。

train と test の各 DataFrame、および学習済みの3つのモデル（xg_depth_2、xg_depth_8、xg_depth_15）は、ワークスペースに用意されています。