検証スコアを再現する

動画では検証スコアとPublic Leaderboardスコアの両方を見ましたが、コード例はテストデータに対してのみ提供されています。検証スコアを得るには、同じ処理をホールドアウト集合に対して繰り返す必要があります。

この章では、New York City Taxi コンペティションのデータを扱います。課題は、ニューヨーク市内のタクシー乗車における運賃を予測することです。コンペティションの評価指標は root mean squared error です。

最初の目標は、検証データでベースラインモデルを評価することです。ここでは、"fare_amount" の平均に基づく最も単純なベースラインを再現します。検証戦略としては、validation_train を学習用、validation_test をホールドアウト用の DataFrame とする 30% ホールドアウト分割を用いたことを思い出してください。どちらの DataFrame もワークスペースで利用できます。