ComenzarEmpieza gratis

Duplicados completos

Se le ha notificado que se ha realizado una actualización en la cadena de datos de uso compartido de bicicletas para hacerla más eficiente, pero que como resultado es más probable que se generen duplicados. Para asegurarse de que puede seguir utilizando las mismas secuencias de comandos para realizar sus análisis semanales sobre las estadísticas de los desplazamientos, primero tendrá que asegurarse de que se eliminan todos los duplicados del conjunto de datos.

Cuando varias filas de un marco de datos comparten los mismos valores para todas las columnas, son duplicados completos entre sí. Eliminar duplicados como éste es importante, ya que tener el mismo valor repetido varias veces puede alterar las estadísticas de resumen, como la media y la mediana. Cada atracción, incluida su página ride_id, debe ser única.

dplyr está cargado y bike_share_rides está disponible.

Este ejercicio forma parte del curso

Limpieza de datos en R

Ver curso

Instrucciones de ejercicio

  • Obtenga el número total de duplicados completos en bike_share_rides.
  • Elimine todos los duplicados completos de bike_share_rides y guarde el nuevo marco de datos como bike_share_rides_unique.
  • Obtiene el número total de duplicados completos en el nuevo marco de datos bike_share_rides_unique.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Editar y ejecutar código