CommencerCommencer gratuitement

Lien entre la durée du trajet et le montant total

On s’attend à ce qu’il existe un lien entre le montant total de la course et la durée du trajet. Comme il y a trop de points pour un nuage de points lisible, utilisons un graphique en hex-bins pour explorer cette relation.

tx est disponible dans votre espace de travail.

Cet exercice fait partie du cours

Visualiser des Big Data avec Trelliscope en R

Afficher le cours

Instructions

  • Utilisez des hex-bins pour visualiser la distribution bivariée de total_amount (axe des y) par rapport à trip_duration (axe des x).
  • Définissez l’argument bins de geom_hex() à 75.
  • Comme les deux variables sont fortement asymétriques, appliquez une échelle logarithmique base 10 aux axes x et y. Notez que ces transformations généreront quelques avertissements concernant un nombre relativement faible d’enregistrements avec une durée de trajet ou un montant de course égal à zéro.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

library(ggplot2)

# Create a hexagon-binned plot of total_amount vs. trip_duration
ggplot(tx, aes(___, ___)) +
  ___ +
  ___ +
  ___
Modifier et exécuter le code