Agrégation des doublons partiels
Une autre façon de gérer les doublons partiels consiste à calculer une statistique récapitulative des valeurs qui diffèrent entre doublons partiels, comme la moyenne, la médiane, le maximum ou le minimum. C’est utile lorsque vous ne savez pas exactement comment vos données ont été collectées et que vous souhaitez une moyenne, ou si, selon votre connaissance du domaine, vous préférez une estimation un peu trop élevée plutôt que trop basse (et inversement).
dplyr est chargé et bike_share_rides est disponible.
Cet exercice fait partie du cours
Nettoyer des données avec R
Instructions
- Regroupez
bike_share_ridesparride_idetdate. - Ajoutez une colonne appelée
duration_min_avgqui contient la durée moyenne du trajet pour leride_idet ladatede la ligne. - Supprimez les doublons sur la base de
ride_idetdate, tout en conservant toutes les colonnes du tableau de données. - Supprimez la colonne
duration_min.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)