Duplicados completos

Se le ha notificado que se ha realizado una actualización en la cadena de datos de uso compartido de bicicletas para hacerla más eficiente, pero que como resultado es más probable que se generen duplicados. Para asegurarse de que puede seguir utilizando las mismas secuencias de comandos para realizar sus análisis semanales sobre las estadísticas de los desplazamientos, primero tendrá que asegurarse de que se eliminan todos los duplicados del conjunto de datos.

Cuando varias filas de un marco de datos comparten los mismos valores para todas las columnas, son duplicados completos entre sí. Eliminar duplicados como éste es importante, ya que tener el mismo valor repetido varias veces puede alterar las estadísticas de resumen, como la media y la mediana. Cada atracción, incluida su página ride_id, debe ser única.

dplyr está cargado y bike_share_rides está disponible.

Este ejercicio forma parte del curso

Limpieza de datos en R

Instrucciones del ejercicio

Obtenga el número total de duplicados completos en bike_share_rides.
Elimine todos los duplicados completos de bike_share_rides y guarde el nuevo marco de datos como bike_share_rides_unique.
Obtiene el número total de duplicados completos en el nuevo marco de datos bike_share_rides_unique.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___

Editar y ejecutar código

Este ejercicio forma parte del curso

Limpieza de datos en R

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirá tipos de datos, aplicará restricciones de rango para eliminar puntos de datos futuros y eliminará puntos de datos duplicados para evitar el doble recuento.

Exercise 1: Restricciones del tipo de datos Exercise 2: Tipos de datos comunes Exercise 3: Conversión de tipos de datos Exercise 4: Recorte de cuerdas Exercise 5: Restricciones de alcance Exercise 6: Limitaciones de la duración del viaje Exercise 7: Regreso al futuro Exercise 8: Restricciones de unicidad Exercise 9: Duplicados completos

Ejercicio actual

Exercise 10: Eliminar duplicados parciales Exercise 11: Agregación de duplicados parciales

Los datos categóricos y de texto suelen ser algunas de las partes más desordenadas de un conjunto de datos debido a su naturaleza no estructurada. En este capítulo, aprenderá a corregir las incoherencias de los espacios en blanco y las mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear las cadenas para mantener la coherencia.

Exercise 1: Comprobación de la afiliación Exercise 2: Sólo para miembros Exercise 3: No es miembro Exercise 4: Problemas de datos categóricos Exercise 5: Identificación de incoherencias Exercise 6: Corregir la incoherencia Exercise 7: Colapso de categorías Exercise 8: Limpieza de datos de texto Exercise 9: Detección de datos de texto incoherentes Exercise 10: Sustitución y retirada Exercise 11: Números de teléfono no válidos

En este capítulo, se adentrará en problemas más avanzados de limpieza de datos, como asegurarse de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirá conocimientos muy valiosos que le ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a sus análisis.

Exercise 1: Uniformidad Exercise 2: Uniformidad de fechas Exercise 3: Uniformidad monetaria Exercise 4: Validación cruzada Exercise 5: Validación de totales Exercise 6: Validar la edad Exercise 7: Integridad Exercise 8: Tipos de ausencia Exercise 9: Visualización de los datos que faltan Exercise 10: Tratamiento de los datos que faltan

La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen errores tipográficos o diferente ortografía. En este capítulo, aprenderá a vincular registros mediante el cálculo de la similitud entre cadenas y, a continuación, utilizará sus nuevos conocimientos para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.

Exercise 1: Comparación de cadenas Exercise 2: Calcular la distancia Exercise 3: Pequeña distancia, pequeña diferencia Exercise 4: Corrección de errores tipográficos con la distancia entre cadenas Exercise 5: Generar y comparar pares Exercise 6: ¿Enlazar o unirse?Exercise 7: Bloqueo de pares Exercise 8: Comparación de pares Exercise 9: Puntuación y enlace Exercise 10: ¿Marcar y luego seleccionar o seleccionar y luego marcar?Exercise 11: Montaje Exercise 12: ¡Enhorabuena!