EDA-plots I
Na het genereren van een paar basisstatistieken is het tijd om enkele ideeën over afhankelijkheden in de data te bedenken en te toetsen. De train-DataFrame van de taxiwedstrijd is opnieuw al beschikbaar in je werkruimte.
Laten we om te beginnen een scatterplot maken die de relatie laat zien tussen het bedrag van de rit en de afstand. Intuïtief geldt: hoe langer de rit, hoe hoger de prijs.
Om de afstand in kilometers tussen twee geocoördinaten te krijgen, gebruik je de Haversine-afstand. De berekening staat klaar in de functie haversine_distance() die voor je is gedefinieerd. De functie verwacht de train-DataFrame als input.
Deze oefening maakt deel uit van de cursus
Een Kaggle-competitie winnen met Python
Oefeninstructies
- Maak een nieuwe variabele "distance_km" als de Haversine-afstand tussen ophaal- en afzetpunten.
- Maak een scatterplot met "fare_amount" op de x-as en "distance_km" op de y-as. Gebruik hiervoor de matplotlib-methode
scatter(). - Beperk de ritafstand tot tussen 0 en 50 kilometer om uitschieters niet te plotten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()