1. 学ぶ
  2. /
  3. コース
  4. /
  5. R での tidymodels によるモデリング

Connected

演習

データの再サンプリング

Machine Learning プロジェクトの最初のステップは、モデルの学習と評価のために学習用データセットとテスト用データセットを作成することです。テスト用データセットは、モデルが新しいデータでどの程度うまく動作するかを見積もり、過学習を防ぐのに役立ちます。

この演習では、通信会社の顧客情報を含む telecom_df データセットを使います。目的変数は canceled_service で、顧客が契約を解約したかどうかを記録しています。説明変数には、携帯電話やインターネットの利用状況、契約タイプ、月額料金に関する情報が含まれます。

tibble の telecom_df は、すでにセッションに読み込まれています。

指示

100 XP
  • telecom_df を学習用とテスト用にランダム分割する手順を含む rsample オブジェクト telecom_split を作成します。
    • データの 75% を学習用に割り当て、canceled_service で層化(stratify)します。
  • telecom_split オブジェクトを適切な rsample 関数に渡して、学習用データセットとテスト用データセットを作成します。
  • それぞれのデータセットを nrow() 関数に渡して、行数を確認します。