Agregação de duplicatas parciais
Outra maneira de lidar com duplicatas parciais é calcular uma estatística resumida dos valores que diferem entre duplicatas parciais, como média, mediana, máximo ou mínimo. Isso pode ser útil quando você não tiver certeza de como seus dados foram coletados e quiser uma média ou se, com base no conhecimento do domínio, preferir uma estimativa muito alta a uma estimativa muito baixa (ou vice-versa).
dplyr
é carregado e bike_share_rides
está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções de exercício
- Agrupe
bike_share_rides
porride_id
edate
. - Adicione uma coluna chamada
duration_min_avg
que contenha a duração média da viagem para as linhasride_id
edate
. - Remova as duplicatas com base em
ride_id
edate
, mantendo todas as colunas do quadro de dados. - Remova a coluna
duration_min
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
bike_share_rides %>%
# Group by ride_id and date
___ %>%
# Add duration_min_avg column
mutate(duration_min_avg = ___ ) %>%
# Remove duplicates based on ride_id and date, keep all cols
___ %>%
# Remove duration_min column
___(-___)