Graphiques d’EDA I

Après avoir généré quelques statistiques de base, il est temps de formuler et de valider des hypothèses sur les dépendances dans les données. Là encore, le DataFrame train de la compétition taxi est déjà disponible dans votre environnement de travail.

Pour commencer, réalisons un nuage de points montrant la relation entre le montant de la course et la distance parcourue. Intuitivement, plus la course est longue, plus son prix est élevé.

Pour obtenir la distance en kilomètres entre deux coordonnées géographiques, vous allez utiliser la distance de Haversine. Son calcul est disponible via la fonction haversine_distance() définie pour vous. La fonction attend le DataFrame train en entrée.

Cet exercice fait partie du cours

<cours>Gagner une compétition Kaggle en Python</cours>

Voir le cours

Instructions de l’exercice

Créez une nouvelle variable « distance_km » correspondant à la distance de Haversine entre les points de départ et d’arrivée.
Tracez un nuage de points avec « fareamount » sur l’axe des x et « distancekm » sur l’axe des y. Pour tracer un nuage de points, utilisez la méthode matplotlib scatter().
Limitez la distance d’une course entre 0 et 50 kilomètres afin d’éviter de tracer des valeurs aberrantes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Calculate the ride distance
train['distance_km'] = ____(train)

# Draw a scatterplot
plt.____(x=____[____], y=____[____], alpha=0.5)
plt.xlabel('Fare amount')
plt.ylabel('Distance, km')
plt.title('Fare amount based on the distance')

# Limit on the distance
plt.ylim(0, ____)
plt.show()

Modifier et exécuter le code