Agregação de duplicatas parciais

Outra maneira de lidar com duplicatas parciais é calcular uma estatística resumida dos valores que diferem entre duplicatas parciais, como média, mediana, máximo ou mínimo. Isso pode ser útil quando você não tiver certeza de como seus dados foram coletados e quiser uma média ou se, com base no conhecimento do domínio, preferir uma estimativa muito alta a uma estimativa muito baixa (ou vice-versa).

dplyr é carregado e bike_share_rides está disponível.

Este exercicio faz parte do curso

Limpeza de dados no R

Instruções do exercicio

Agrupe bike_share_rides por ride_id e date.
Adicione uma coluna chamada duration_min_avg que contenha a duração média da viagem para as linhas ride_id e date.
Remova as duplicatas com base em ride_id e date, mantendo todas as colunas do quadro de dados.
Remova a coluna duration_min.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)

Editar e Executar Código

Este exercicio faz parte do curso

Limpeza de dados no R

IntermediárioNível de habilidade

4.8+

Comece o curso gratuitamente

Neste capítulo, você aprenderá a superar alguns dos problemas mais comuns de dados sujos. Você converterá tipos de dados, aplicará restrições de intervalo para remover pontos de dados futuros e removerá pontos de dados duplicados para evitar contagem dupla.

Exercise 1: Restrições de tipo de dados Exercise 2: Tipos de dados comuns Exercise 3: Conversão de tipos de dados Exercise 4: Corte de cordas Exercise 5: Restrições de alcance Exercise 6: Restrições de duração da viagem Exercise 7: De volta ao futuro Exercise 8: Restrições de exclusividade Exercise 9: Duplicatas completas Exercise 10: Remoção de duplicatas parciais Exercise 11: Agregação de duplicatas parciais

Exercicio Atual

Os dados categóricos e de texto podem ser algumas das partes mais confusas de um conjunto de dados devido à sua natureza não estruturada. Neste capítulo, você aprenderá a corrigir inconsistências de espaço em branco e de letras maiúsculas nos rótulos de categoria, a recolher várias categorias em uma só e a reformatar cadeias de caracteres para obter consistência.

Exercise 1: Verificação de associação Exercise 2: Somente para membros Exercise 3: Não sou membro Exercise 4: Problemas de dados categóricos Exercise 5: Identificação de inconsistências Exercise 6: Correção de inconsistências Exercise 7: Colapso de categorias Exercise 8: Limpeza de dados de texto Exercise 9: Detecção de dados de texto inconsistentes Exercise 10: Substituição e remoção Exercise 11: Números de telefone inválidos

Neste capítulo, você se aprofundará em problemas mais avançados de limpeza de dados, como garantir que todos os pesos sejam escritos em quilogramas em vez de libras. Você também adquirirá habilidades valiosas que o ajudarão a verificar se os valores foram adicionados corretamente e se os valores ausentes não afetam negativamente suas análises.

Exercise 1: Uniformidade Exercise 2: Uniformidade de datas Exercise 3: Uniformidade da moeda Exercise 4: Validação entre campos Exercise 5: Validação de totais Exercise 6: Validação da idade Exercise 7: Completude Exercise 8: Tipos de falta Exercise 9: Visualização de dados ausentes Exercise 10: Tratamento de dados ausentes

A vinculação de registros é uma técnica poderosa usada para mesclar vários conjuntos de dados, usada quando os valores têm erros de digitação ou grafias diferentes. Neste capítulo, você aprenderá a vincular registros calculando a similaridade entre cadeias de caracteres. Em seguida, usará suas novas habilidades para unir dois conjuntos de dados de avaliações de restaurantes em um conjunto de dados mestre limpo.

Exercise 1: Comparação de cadeias de caracteres Exercise 2: Cálculo da distância Exercise 3: Pequena distância, pequena diferença Exercise 4: Correção de erros de digitação com distância de string Exercise 5: Geração e comparação de pares Exercise 6: Você pode criar um link ou participar?Exercise 7: Bloqueio de pares Exercise 8: Comparação de pares Exercise 9: Pontuação e vinculação Exercise 10: Você marca e depois seleciona ou seleciona e depois marca?Exercise 11: Montagem Exercise 12: Parabéns!