1. 学ぶ
  2. /
  3. コース
  4. /
  5. Tidyverse で学ぶ Machine Learning

Connected

演習

訓練・テスト分割

確立されたMachine Learningのワークフローでは、データの一部(テストデータ)を意思決定から切り離しておくことが重要です。これにより、最終的なモデルの性能を独立に評価できます。残りのデータである訓練データは、モデルの構築と選択に使用します。

この演習では、rsample パッケージを使って gapminder データの初回の訓練・テスト分割を行います。

注: データはランダムに分割されるため、分割前に乱数シードを設定しておくと良い実践です。

指示

100 XP
  • initial_split() 関数を使ってデータを学習75%、テスト25%に分割し、gap_split に代入します。
  • training() 関数で gap_split から学習用データフレームを抽出します。
  • testing() 関数で gap_split からテスト用データフレームを抽出します。
  • training_data と testing_data に対して dim() 関数を使い、新しいデータフレームの次元が想定どおりであることを確認します。