ComeçarComece de graça

Gráficos de EDA I

Depois de gerar algumas estatísticas básicas, é hora de levantar e validar algumas ideias sobre as dependências nos dados. Novamente, o DataFrame train da competição de táxi já está disponível no seu ambiente.

Para começar, vamos fazer um gráfico de dispersão mostrando a relação entre o valor da corrida e a distância percorrida. Intuitivamente, quanto mais longa a corrida, maior o preço.

Para obter a distância em quilômetros entre duas coordenadas geográficas, você vai usar a distância de Haversine. O cálculo está disponível na função haversine_distance() definida para você. A função espera o DataFrame train como entrada.

Este exercício faz parte do curso

Vencendo uma competição do Kaggle em Python

Ver curso

Instruções do exercício

  • Crie uma nova variável "distance_km" como a distância de Haversine entre os pontos de embarque e desembarque.
  • Plote um gráfico de dispersão com "fare_amount" no eixo x e "distance_km" no eixo y. Para desenhar o gráfico de dispersão, use o método scatter() do matplotlib.
  • Defina um limite para a distância da corrida entre 0 e 50 quilômetros para evitar plotar outliers.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Calculate the ride distance
train['distance_km'] = ____(train)

# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')

# Limit on the distance
plt.ylim(0, ____)
plt.show()
Editar e executar o código