Correção de inconsistências
Agora que você identificou que dest_size tem inconsistências de espaço em branco e que cleanliness tem inconsistências de capitalização, você usará as novas ferramentas à sua disposição para corrigir os valores inconsistentes em sfo_survey em vez de remover totalmente os pontos de dados, o que poderia adicionar viés ao seu conjunto de dados se mais de 5% dos pontos de dados precisassem ser removidos.
dplyr e stringr estão carregados e sfo_survey está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções do exercício
- Adicione uma coluna a
sfo_surveychamadadest_size_trimmedque contenha os valores da colunadest_sizecom todos os espaços em branco à esquerda e à direita removidos. - Adicione outra coluna chamada
cleanliness_lowerque contenha os valores da colunacleanlinessconvertidos para todas as letras minúsculas. - Conte o número de ocorrências de cada categoria em
dest_size_trimmed. - Conte o número de ocorrências de cada categoria em
cleanliness_lower.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___