クラス不均衡を避ける

まれな疾患のデータセットのように、結果が大きく偏っているデータもあります。無作為に分割すると、運悪く偏った分割になることがあります。たとえば、まれな観測がすべてテストに入り、学習データには1つもない、といったケースです。これでは学習が台無しになってしまいます。

幸い、initial_split() 関数にはその対策があります。この演習では、いわゆる「クラス不均衡」を観察し、解決していきます。

すでに、学習75%・テスト25%で分割するスプリットオブジェクト diabetes_split を作成するコードが用意されています。