1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Jak vyhrát soutěž na Kaggle v Pythonu

Connected

cvičení

EDA grafy I

Po prozkoumání základních statistik je čas přijít s vlastními hypotézami o závislostech v datech a ověřit je. DataFrame train z taxikářské soutěže máš opět k dispozici ve svém pracovním prostoru.

Začneme bodovým grafem, který znázorní vztah mezi výší jízdného a délkou jízdy. Intuitivně platí: čím delší jízda, tím vyšší cena.

Pro výpočet vzdálenosti v kilometrech mezi dvěma zeměpisnými souřadnicemi použiješ Haversinovu vzdálenost. Výpočet je dostupný prostřednictvím předdefinované funkce haversine_distance(). Tato funkce jako vstup očekává DataFrame train.

Pokyny

100 XP
  • Vytvoř novou proměnnou "distance_km" jako Haversinovu vzdálenost mezi místem nástupu a výstupu.
  • Vykresli bodový graf s "fare_amount" na ose x a "distance_km" na ose y. Bodový graf vykreslíš metodou scatter() z knihovny matplotlib.
  • Nastav rozsah vzdálenosti jízdy na 0 až 50 kilometrů, aby se do grafu nezahrnovaly odlehlé hodnoty.