Corregir la incoherencia
Ahora que ha identificado que dest_size tiene incoherencias en los espacios en blanco y que cleanliness tiene incoherencias en las mayúsculas, utilizará las nuevas herramientas a su disposición para corregir los valores incoherentes en sfo_survey en lugar de eliminar los puntos de datos por completo, lo que podría añadir un sesgo a su conjunto de datos si es necesario eliminar más del 5% de los puntos de datos.
dplyr y stringr están cargados y sfo_survey está disponible.
Este ejercicio forma parte del curso
Limpieza de datos en R
Instrucciones del ejercicio
- Añada una columna a
sfo_surveyllamadadest_size_trimmedque contenga los valores de la columnadest_sizeeliminando todos los espacios en blanco iniciales y finales. - Añada otra columna llamada
cleanliness_lowerque contenga los valores de la columnacleanlinessconvertidos a minúsculas. - Cuente el número de apariciones de cada categoría en
dest_size_trimmed. - Cuente el número de apariciones de cada categoría en
cleanliness_lower.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___