1. Learn
  2. /
  3. Courses
  4. /
  5. Rで学ぶTree-Based ModelsによるMachine Learning

Connected

Exercise

クラス不均衡を避ける

まれな疾患のデータセットのように、結果が大きく偏っているデータもあります。無作為に分割すると、運悪く偏った分割になることがあります。たとえば、まれな観測がすべてテストに入り、学習データには1つもない、といったケースです。これでは学習が台無しになってしまいます。

幸い、initial_split() 関数にはその対策があります。この演習では、いわゆる「クラス不均衡」を観察し、解決していきます。

すでに、学習75%・テスト25%で分割するスプリットオブジェクト diabetes_split を作成するコードが用意されています。

Instructions 1/2

undefined XP
  • 1
    • diabetes_split の学習集合とテスト集合それぞれで、"yes" の結果の割合を数えます。
  • 2
    • 学習/テストの比率はそのままに、両方の集合で outcome 変数が同じ分布になるように、diabetes_split を作り直します。
    • 両方のデータセットで yes の結果の割合を数えます。