ComeçarComece de graça

Correção de inconsistências

Agora que você identificou que dest_size tem inconsistências de espaço em branco e que cleanliness tem inconsistências de capitalização, você usará as novas ferramentas à sua disposição para corrigir os valores inconsistentes em sfo_survey em vez de remover totalmente os pontos de dados, o que poderia adicionar viés ao seu conjunto de dados se mais de 5% dos pontos de dados precisassem ser removidos.

dplyr e stringr estão carregados e sfo_survey está disponível.

Este exercício faz parte do curso

Limpeza de dados no R

Ver curso

Instruções do exercício

  • Adicione uma coluna a sfo_survey chamada dest_size_trimmed que contenha os valores da coluna dest_size com todos os espaços em branco à esquerda e à direita removidos.
  • Adicione outra coluna chamada cleanliness_lower que contenha os valores da coluna cleanliness convertidos para todas as letras minúsculas.
  • Conte o número de ocorrências de cada categoria em dest_size_trimmed.
  • Conte o número de ocorrências de cada categoria em cleanliness_lower.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Editar e executar o código