Correção de inconsistências
Agora que você identificou que dest_size
tem inconsistências de espaço em branco e que cleanliness
tem inconsistências de capitalização, você usará as novas ferramentas à sua disposição para corrigir os valores inconsistentes em sfo_survey
em vez de remover totalmente os pontos de dados, o que poderia adicionar viés ao seu conjunto de dados se mais de 5% dos pontos de dados precisassem ser removidos.
dplyr
e stringr
estão carregados e sfo_survey
está disponível.
Este exercício faz parte do curso
Limpeza de dados no R
Instruções do exercício
- Adicione uma coluna a
sfo_survey
chamadadest_size_trimmed
que contenha os valores da colunadest_size
com todos os espaços em branco à esquerda e à direita removidos. - Adicione outra coluna chamada
cleanliness_lower
que contenha os valores da colunacleanliness
convertidos para todas as letras minúsculas. - Conte o número de ocorrências de cada categoria em
dest_size_trimmed
. - Conte o número de ocorrências de cada categoria em
cleanliness_lower
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___