Agregação de duplicatas parciais
Outra maneira de lidar com duplicatas parciais é calcular uma estatística resumida dos valores que diferem entre duplicatas parciais, como média, mediana, máximo ou mínimo. Isso pode ser útil quando você não tiver certeza de como seus dados foram coletados e quiser uma média ou se, com base no conhecimento do domínio, preferir uma estimativa muito alta a uma estimativa muito baixa (ou vice-versa).
dplyr é carregado e bike_share_rides está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções do exercício
- Agrupe
bike_share_ridesporride_idedate. - Adicione uma coluna chamada
duration_min_avgque contenha a duração média da viagem para as linhasride_idedate. - Remova as duplicatas com base em
ride_idedate, mantendo todas as colunas do quadro de dados. - Remova a coluna
duration_min.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)