Duplicatas completas

Você foi notificado de que foi feita uma atualização no pipeline de dados de compartilhamento de bicicletas para torná-lo mais eficiente, mas que, como resultado, é mais provável que sejam geradas duplicatas. Para garantir que você possa continuar usando os mesmos scripts para executar suas análises semanais sobre estatísticas de viagem, você precisará garantir que todas as duplicatas no conjunto de dados sejam removidas primeiro.

Quando várias linhas de um quadro de dados compartilham os mesmos valores para todas as colunas, elas são duplicatas completas umas das outras. A remoção de duplicatas como essa é importante, pois o fato de o mesmo valor ser repetido várias vezes pode alterar as estatísticas resumidas, como a média e a mediana. Cada passeio, incluindo o site ride_id, deve ser único.

dplyr é carregado e bike_share_rides está disponível.

Este exercicio faz parte do curso

Limpeza de dados no R

Instruções do exercicio

Obtenha o número total de duplicatas completas em bike_share_rides.
Remova todas as duplicatas completas de bike_share_rides e salve o novo quadro de dados como bike_share_rides_unique.
Obtenha o número total de duplicatas completas no novo quadro de dados bike_share_rides_unique.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___

Editar e Executar Código

Este exercicio faz parte do curso

Limpeza de dados no R

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, você aprenderá a superar alguns dos problemas mais comuns de dados sujos. Você converterá tipos de dados, aplicará restrições de intervalo para remover pontos de dados futuros e removerá pontos de dados duplicados para evitar contagem dupla.

Exercise 1: Restrições de tipo de dados Exercise 2: Tipos de dados comuns Exercise 3: Conversão de tipos de dados Exercise 4: Corte de cordas Exercise 5: Restrições de alcance Exercise 6: Restrições de duração da viagem Exercise 7: De volta ao futuro Exercise 8: Restrições de exclusividade Exercise 9: Duplicatas completas

Exercicio Atual

Exercise 10: Remoção de duplicatas parciais Exercise 11: Agregação de duplicatas parciais

Os dados categóricos e de texto podem ser algumas das partes mais confusas de um conjunto de dados devido à sua natureza não estruturada. Neste capítulo, você aprenderá a corrigir inconsistências de espaço em branco e de letras maiúsculas nos rótulos de categoria, a recolher várias categorias em uma só e a reformatar cadeias de caracteres para obter consistência.

Exercise 1: Verificação de associação Exercise 2: Somente para membros Exercise 3: Não sou membro Exercise 4: Problemas de dados categóricos Exercise 5: Identificação de inconsistências Exercise 6: Correção de inconsistências Exercise 7: Colapso de categorias Exercise 8: Limpeza de dados de texto Exercise 9: Detecção de dados de texto inconsistentes Exercise 10: Substituição e remoção Exercise 11: Números de telefone inválidos

Neste capítulo, você se aprofundará em problemas mais avançados de limpeza de dados, como garantir que todos os pesos sejam escritos em quilogramas em vez de libras. Você também adquirirá habilidades valiosas que o ajudarão a verificar se os valores foram adicionados corretamente e se os valores ausentes não afetam negativamente suas análises.

Exercise 1: Uniformidade Exercise 2: Uniformidade de datas Exercise 3: Uniformidade da moeda Exercise 4: Validação entre campos Exercise 5: Validação de totais Exercise 6: Validação da idade Exercise 7: Completude Exercise 8: Tipos de falta Exercise 9: Visualização de dados ausentes Exercise 10: Tratamento de dados ausentes

A vinculação de registros é uma técnica poderosa usada para mesclar vários conjuntos de dados, usada quando os valores têm erros de digitação ou grafias diferentes. Neste capítulo, você aprenderá a vincular registros calculando a similaridade entre cadeias de caracteres. Em seguida, usará suas novas habilidades para unir dois conjuntos de dados de avaliações de restaurantes em um conjunto de dados mestre limpo.

Exercise 1: Comparação de cadeias de caracteres Exercise 2: Cálculo da distância Exercise 3: Pequena distância, pequena diferença Exercise 4: Correção de erros de digitação com distância de string Exercise 5: Geração e comparação de pares Exercise 6: Você pode criar um link ou participar?Exercise 7: Bloqueio de pares Exercise 8: Comparação de pares Exercise 9: Pontuação e vinculação Exercise 10: Você marca e depois seleciona ou seleciona e depois marca?Exercise 11: Montagem Exercise 12: Parabéns!