1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

演習

検証スコアを再現する

動画では検証スコアとPublic Leaderboardスコアの両方を見ましたが、コード例はテストデータに対してのみ提供されています。検証スコアを得るには、同じ処理をホールドアウト集合に対して繰り返す必要があります。

この章では、New York City Taxi コンペティションのデータを扱います。課題は、ニューヨーク市内のタクシー乗車における運賃を予測することです。コンペティションの評価指標は root mean squared error です。

最初の目標は、検証データでベースラインモデルを評価することです。ここでは、"fare_amount" の平均に基づく最も単純なベースラインを再現します。検証戦略としては、validation_train を学習用、validation_test をホールドアウト用の DataFrame とする 30% ホールドアウト分割を用いたことを思い出してください。どちらの DataFrame もワークスペースで利用できます。

指示

100 XP
  • validation_train 全体に対して "fare_amount" の平均を計算します。
  • この素朴な予測値をホールドアウトのすべての予測に割り当て、"pred" 列に保存します。