ComeçarComece gratuitamente

Agregação de duplicatas parciais

Outra maneira de lidar com duplicatas parciais é calcular uma estatística resumida dos valores que diferem entre duplicatas parciais, como média, mediana, máximo ou mínimo. Isso pode ser útil quando você não tiver certeza de como seus dados foram coletados e quiser uma média ou se, com base no conhecimento do domínio, preferir uma estimativa muito alta a uma estimativa muito baixa (ou vice-versa).

dplyr é carregado e bike_share_rides está disponível.

Este exercício faz parte do curso

Limpeza de dados no R

Ver Curso

Instruções de exercício

  • Agrupe bike_share_rides por ride_id e date.
  • Adicione uma coluna chamada duration_min_avg que contenha a duração média da viagem para as linhas ride_id e date.
  • Remova as duplicatas com base em ride_id e date, mantendo todas as colunas do quadro de dados.
  • Remova a coluna duration_min.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)
Editar e executar código