1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

演習

EDAプロット I

基本的な統計量をいくつか確認したら、次はデータの依存関係について仮説を立てて検証していきます。タクシーコンペの train DataFrame は、今回もワークスペースに用意されています。

まずは、運賃と走行距離の関係を見る散布図を作成しましょう。直感的には、走行距離が長いほど料金は高くなります。

2つの地理座標間の距離(km)を得るには Haversine distance を使います。計算は、すでに用意されている haversine_distance() 関数で行えます。この関数は train DataFrame を入力として受け取ります。

指示

100 XP
  • ピックアップ地点とドロップオフ地点の Haversine distance を新しい変数 "distance_km" として作成します。
  • x 軸に "fareamount"、y 軸に "distancekm" をとった散布図を描きます。散布図の作成には matplotlib の scatter() メソッドを使います。
  • 外れ値のプロットを避けるため、走行距離の範囲を 0〜50 km に制限します。