Agregación de duplicados parciales

Otra forma de tratar los duplicados parciales es calcular una estadística de resumen de los valores que difieren entre los duplicados parciales, como la media, la mediana, el máximo o el mínimo. Esto puede resultar útil cuando no se está seguro de cómo se recopilaron los datos y se desea obtener una media, o si, basándose en el conocimiento del dominio, se prefiere una estimación demasiado alta a una demasiado baja (o viceversa).

dplyr está cargado y bike_share_rides está disponible.

Este ejercicio forma parte del curso

Limpieza de datos en R

Instrucciones del ejercicio

Agrupar bike_share_rides por ride_id y date.
Añada una columna llamada duration_min_avg que contenga la duración media del trayecto para las filas ride_id y date.
Elimina los duplicados basándose en ride_id y date, manteniendo todas las columnas del marco de datos.
Retire la columna duration_min.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)

Editar y ejecutar código

Este ejercicio forma parte del curso

Limpieza de datos en R

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, aprenderás a superar algunos de los problemas más comunes con los datos sucios. Convertirá tipos de datos, aplicará restricciones de rango para eliminar puntos de datos futuros y eliminará puntos de datos duplicados para evitar el doble recuento.

Exercise 1: Restricciones del tipo de datos Exercise 2: Tipos de datos comunes Exercise 3: Conversión de tipos de datos Exercise 4: Recorte de cuerdas Exercise 5: Restricciones de alcance Exercise 6: Limitaciones de la duración del viaje Exercise 7: Regreso al futuro Exercise 8: Restricciones de unicidad Exercise 9: Duplicados completos Exercise 10: Eliminar duplicados parciales Exercise 11: Agregación de duplicados parciales

Ejercicio actual

Los datos categóricos y de texto suelen ser algunas de las partes más desordenadas de un conjunto de datos debido a su naturaleza no estructurada. En este capítulo, aprenderá a corregir las incoherencias de los espacios en blanco y las mayúsculas en las etiquetas de las categorías, a contraer varias categorías en una sola y a reformatear las cadenas para mantener la coherencia.

Exercise 1: Comprobación de la afiliación Exercise 2: Sólo para miembros Exercise 3: No es miembro Exercise 4: Problemas de datos categóricos Exercise 5: Identificación de incoherencias Exercise 6: Corregir la incoherencia Exercise 7: Colapso de categorías Exercise 8: Limpieza de datos de texto Exercise 9: Detección de datos de texto incoherentes Exercise 10: Sustitución y retirada Exercise 11: Números de teléfono no válidos

En este capítulo, se adentrará en problemas más avanzados de limpieza de datos, como asegurarse de que todos los pesos están escritos en kilogramos en lugar de libras. También adquirirá conocimientos muy valiosos que le ayudarán a verificar que los valores se han añadido correctamente y que los valores que faltan no afectan negativamente a sus análisis.

Exercise 1: Uniformidad Exercise 2: Uniformidad de fechas Exercise 3: Uniformidad monetaria Exercise 4: Validación cruzada Exercise 5: Validación de totales Exercise 6: Validar la edad Exercise 7: Integridad Exercise 8: Tipos de ausencia Exercise 9: Visualización de los datos que faltan Exercise 10: Tratamiento de los datos que faltan

La vinculación de registros es una potente técnica para fusionar varios conjuntos de datos, que se utiliza cuando los valores tienen errores tipográficos o diferente ortografía. En este capítulo, aprenderá a vincular registros mediante el cálculo de la similitud entre cadenas y, a continuación, utilizará sus nuevos conocimientos para unir dos conjuntos de datos de reseñas de restaurantes en un conjunto de datos maestro limpio.

Exercise 1: Comparación de cadenas Exercise 2: Calcular la distancia Exercise 3: Pequeña distancia, pequeña diferencia Exercise 4: Corrección de errores tipográficos con la distancia entre cadenas Exercise 5: Generar y comparar pares Exercise 6: ¿Enlazar o unirse?Exercise 7: Bloqueo de pares Exercise 8: Comparación de pares Exercise 9: Puntuación y enlace Exercise 10: ¿Marcar y luego seleccionar o seleccionar y luego marcar?Exercise 11: Montaje Exercise 12: ¡Enhorabuena!