CommencerCommencer gratuitement

Agrégation des doublons partiels

Une autre façon de gérer les doublons partiels consiste à calculer une statistique récapitulative des valeurs qui diffèrent entre doublons partiels, comme la moyenne, la médiane, le maximum ou le minimum. C’est utile lorsque vous ne savez pas exactement comment vos données ont été collectées et que vous souhaitez une moyenne, ou si, selon votre connaissance du domaine, vous préférez une estimation un peu trop élevée plutôt que trop basse (et inversement).

dplyr est chargé et bike_share_rides est disponible.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Instructions

  • Regroupez bike_share_rides par ride_id et date.
  • Ajoutez une colonne appelée duration_min_avg qui contient la durée moyenne du trajet pour le ride_id et la date de la ligne.
  • Supprimez les doublons sur la base de ride_id et date, tout en conservant toutes les colonnes du tableau de données.
  • Supprimez la colonne duration_min.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Modifier et exécuter le code