Corregir la incoherencia
Ahora que ha identificado que dest_size
tiene incoherencias en los espacios en blanco y que cleanliness
tiene incoherencias en las mayúsculas, utilizará las nuevas herramientas a su disposición para corregir los valores incoherentes en sfo_survey
en lugar de eliminar los puntos de datos por completo, lo que podría añadir un sesgo a su conjunto de datos si es necesario eliminar más del 5% de los puntos de datos.
dplyr
y stringr
están cargados y sfo_survey
está disponible.
Este ejercicio forma parte del curso
Limpieza de datos en R
Instrucciones de ejercicio
- Añada una columna a
sfo_survey
llamadadest_size_trimmed
que contenga los valores de la columnadest_size
eliminando todos los espacios en blanco iniciales y finales. - Añada otra columna llamada
cleanliness_lower
que contenga los valores de la columnacleanliness
convertidos a minúsculas. - Cuente el número de apariciones de cada categoría en
dest_size_trimmed
. - Cuente el número de apariciones de cada categoría en
cleanliness_lower
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___