ComeçarComece gratuitamente

Duplicatas completas

Você foi notificado de que foi feita uma atualização no pipeline de dados de compartilhamento de bicicletas para torná-lo mais eficiente, mas que, como resultado, é mais provável que sejam geradas duplicatas. Para garantir que você possa continuar usando os mesmos scripts para executar suas análises semanais sobre estatísticas de viagem, você precisará garantir que todas as duplicatas no conjunto de dados sejam removidas primeiro.

Quando várias linhas de um quadro de dados compartilham os mesmos valores para todas as colunas, elas são duplicatas completas umas das outras. A remoção de duplicatas como essa é importante, pois o fato de o mesmo valor ser repetido várias vezes pode alterar as estatísticas resumidas, como a média e a mediana. Cada passeio, incluindo o site ride_id, deve ser único.

dplyr é carregado e bike_share_rides está disponível.

Este exercício faz parte do curso

Limpeza de dados no R

Ver Curso

Instruções de exercício

  • Obtenha o número total de duplicatas completas em bike_share_rides.
  • Remova todas as duplicatas completas de bike_share_rides e salve o novo quadro de dados como bike_share_rides_unique.
  • Obtenha o número total de duplicatas completas no novo quadro de dados bike_share_rides_unique.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Editar e executar código