1. 学ぶ
  2. /
  3. コース
  4. /
  5. R での tidymodels によるモデリング

Connected

演習

トレーニング用データセットとテスト用データセットの作成

rsample パッケージは、トレーニング用とテスト用のデータセットを作成するためのものです。テスト用データセットを作ることは、学習済みモデルが新しいデータでどの程度うまく動くかを見積もるうえで重要です。また、トレーニングデータにしかないパターンを暗記してしまい、新しいデータで性能が落ちる「過学習」を防ぐ効果もあります。

この演習では、home_sales データからトレーニング用とテスト用のデータセットを作成します。このデータには、2015年から2016年にかけてワシントン州シアトル周辺で売却された住宅に関する情報が含まれています。

このデータの目的変数は selling_price です。

このコースのすべての演習では tidymodels パッケージがあらかじめ読み込まれています。home_sales ティブルもすでに読み込まれています。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • rsample オブジェクト home_split を作成し、home_sales データをトレーニング用とテスト用にランダムに分割する手順を含めてください。
  • データの70%をトレーニング用に割り当て、selling_price で層化してください。