EDAプロット I

基本的な統計量をいくつか確認したら、次はデータの依存関係について仮説を立てて検証していきます。タクシーコンペの train DataFrame は、今回もワークスペースに用意されています。

まずは、運賃と走行距離の関係を見る散布図を作成しましょう。直感的には、走行距離が長いほど料金は高くなります。

2つの地理座標間の距離（km）を得るには Haversine distance を使います。計算は、すでに用意されている haversine_distance() 関数で行えます。この関数は train DataFrame を入力として受け取ります。