1. 学ぶ
  2. /
  3. コース
  4. /
  5. Rで学ぶTree-Based ModelsによるMachine Learning

Connected

演習

フォールドを作成する

データを一度だけ訓練用とテスト用に分割する方法には統計的な不安定さがあります。例えば、小さな確率ではありますが、テストセットに高評価の豆だけが入り、低評価の豆がすべて訓練セットに入ってしまうかもしれません。 また、モデルの性能を測定できるのは一度きりということにもなります。

Cross-validation を使うと、こうした統計的な落とし穴を避けながら、外部データに対する性能をより堅牢に見積もれます。モデルをより深く評価できるのです。

この演習では、あらかじめ読み込まれている訓練データ chocolate_train をフォールドに分割します。

指示

100 XP
  • 再現性のためにシードを 20 に設定します。
  • chocolate_train を 10 分割し、結果を chocolate_folds として保存します。