Gráficos de EDA I
Después de calcular algunas estadísticas básicas, toca proponer y validar ideas sobre las dependencias en los datos. De nuevo, el DataFrame train de la competición de taxis ya está disponible en tu espacio de trabajo.
Para empezar, vamos a crear un diagrama de dispersión que muestre la relación entre el importe de la tarifa y la distancia del viaje. De forma intuitiva, cuanto más largo sea el trayecto, mayor será su precio.
Para obtener la distancia en kilómetros entre dos coordenadas geográficas, usarás la distancia de Haversine. Su cálculo está disponible con la función haversine_distance() ya definida para ti. La función espera el DataFrame train como entrada.
Este ejercicio forma parte del curso
Cómo ganar una competición de Kaggle con Python
Instrucciones del ejercicio
- Crea una nueva variable "distance_km" como la distancia de Haversine entre los puntos de recogida y de destino.
- Dibuja un diagrama de dispersión con "fare_amount" en el eje x y "distance_km" en el eje y. Para trazar el diagrama de dispersión, utiliza el método
scatter()de matplotlib. - Establece un límite para la distancia del viaje entre 0 y 50 kilómetros para evitar representar valores atípicos.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()