ComenzarEmpieza gratis

Agregación de duplicados parciales

Otra forma de tratar los duplicados parciales es calcular una estadística de resumen de los valores que difieren entre los duplicados parciales, como la media, la mediana, el máximo o el mínimo. Esto puede resultar útil cuando no se está seguro de cómo se recopilaron los datos y se desea obtener una media, o si, basándose en el conocimiento del dominio, se prefiere una estimación demasiado alta a una demasiado baja (o viceversa).

dplyr está cargado y bike_share_rides está disponible.

Este ejercicio forma parte del curso

Limpieza de datos en R

Ver curso

Instrucciones de ejercicio

  • Agrupar bike_share_rides por ride_id y date.
  • Añada una columna llamada duration_min_avg que contenga la duración media del trayecto para las filas ride_id y date.
  • Elimina los duplicados basándose en ride_id y date, manteniendo todas las columnas del marco de datos.
  • Retire la columna duration_min.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Editar y ejecutar código