Duplicados completos
Se le ha notificado que se ha realizado una actualización en la cadena de datos de uso compartido de bicicletas para hacerla más eficiente, pero que como resultado es más probable que se generen duplicados. Para asegurarse de que puede seguir utilizando las mismas secuencias de comandos para realizar sus análisis semanales sobre las estadísticas de los desplazamientos, primero tendrá que asegurarse de que se eliminan todos los duplicados del conjunto de datos.
Cuando varias filas de un marco de datos comparten los mismos valores para todas las columnas, son duplicados completos entre sí. Eliminar duplicados como éste es importante, ya que tener el mismo valor repetido varias veces puede alterar las estadísticas de resumen, como la media y la mediana. Cada atracción, incluida su página ride_id
, debe ser única.
dplyr
está cargado y bike_share_rides
está disponible.
Este ejercicio forma parte del curso
Limpieza de datos en R
Instrucciones de ejercicio
- Obtenga el número total de duplicados completos en
bike_share_rides
. - Elimine todos los duplicados completos de
bike_share_rides
y guarde el nuevo marco de datos comobike_share_rides_unique.
- Obtiene el número total de duplicados completos en el nuevo marco de datos
bike_share_rides_unique
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___