1. Nauka
  2. /
  3. Kursy
  4. /
  5. Zwycięstwo w konkursie Kaggle w Pythonie

Connected

ćwiczenie

Wykresy EDA I

Po wygenerowaniu kilku podstawowych statystyk czas na formułowanie i weryfikowanie hipotez dotyczących zależności w danych. DataFrame train z konkursu taksówkowego jest już dostępny w twoim środowisku pracy.

Na początek stwórzmy wykres punktowy pokazujący zależność między kwotą opłaty za kurs a jego dystansem. Intuicyjnie – im dłuższy kurs, tym wyższa cena.

Do obliczenia odległości w kilometrach między dwoma współrzędnymi geograficznymi użyjesz odległości Haversine'a. Jej obliczanie jest dostępne za pomocą predefiniowanej funkcji haversine_distance(). Funkcja przyjmuje DataFrame train jako dane wejściowe.

Instrukcje

100 XP
  • Utwórz nową zmienną distance_km jako odległość Haversine'a między punktem odbioru a punktem docelowym.
  • Narysuj wykres punktowy z fare_amount na osi x i distance_km na osi y. Do rysowania wykresu punktowego użyj metody scatter() z biblioteki matplotlib.
  • Ogranicz dystans kursu do zakresu od 0 do 50 kilometrów, aby uniknąć wyświetlania wartości odstających.