Agregación de duplicados parciales
Otra forma de tratar los duplicados parciales es calcular una estadística de resumen de los valores que difieren entre los duplicados parciales, como la media, la mediana, el máximo o el mínimo. Esto puede resultar útil cuando no se está seguro de cómo se recopilaron los datos y se desea obtener una media, o si, basándose en el conocimiento del dominio, se prefiere una estimación demasiado alta a una demasiado baja (o viceversa).
dplyr
está cargado y bike_share_rides
está disponible.
Este ejercicio forma parte del curso
Limpieza de datos en R
Instrucciones de ejercicio
- Agrupar
bike_share_rides
porride_id
ydate
. - Añada una columna llamada
duration_min_avg
que contenga la duración media del trayecto para las filasride_id
ydate
. - Elimina los duplicados basándose en
ride_id
ydate
, manteniendo todas las columnas del marco de datos. - Retire la columna
duration_min
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)