Gráficos de EDA I
Depois de gerar algumas estatísticas básicas, é hora de levantar e validar algumas ideias sobre as dependências nos dados. Novamente, o DataFrame train da competição de táxi já está disponível no seu ambiente.
Para começar, vamos fazer um gráfico de dispersão mostrando a relação entre o valor da corrida e a distância percorrida. Intuitivamente, quanto mais longa a corrida, maior o preço.
Para obter a distância em quilômetros entre duas coordenadas geográficas, você vai usar a distância de Haversine. O cálculo está disponível na função haversine_distance() definida para você. A função espera o DataFrame train como entrada.
Este exercício faz parte do curso
Vencendo uma competição do Kaggle em Python
Instruções do exercício
- Crie uma nova variável "distance_km" como a distância de Haversine entre os pontos de embarque e desembarque.
- Plote um gráfico de dispersão com "fare_amount" no eixo x e "distance_km" no eixo y. Para desenhar o gráfico de dispersão, use o método
scatter()do matplotlib. - Defina um limite para a distância da corrida entre 0 e 50 quilômetros para evitar plotar outliers.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Calculate the ride distance
train['distance_km'] = ____(train)
# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')
# Limit on the distance
plt.ylim(0, ____)
plt.show()