データの再サンプリング

Machine Learning プロジェクトの最初のステップは、モデルの学習と評価のために学習用データセットとテスト用データセットを作成することです。テスト用データセットは、モデルが新しいデータでどの程度うまく動作するかを見積もり、過学習を防ぐのに役立ちます。

この演習では、通信会社の顧客情報を含む telecom_df データセットを使います。目的変数は canceled_service で、顧客が契約を解約したかどうかを記録しています。説明変数には、携帯電話やインターネットの利用状況、契約タイプ、月額料金に関する情報が含まれます。

tibble の telecom_df は、すでにセッションに読み込まれています。