Corrección de errores tipográficos con la distancia entre cadenas
En este capítulo, uno de los conjuntos de datos con los que trabajará, zagat
, es un conjunto de restaurantes de Nueva York, Los Ángeles, Atlanta, San Francisco y Las Vegas. Los datos proceden de Zagat, una empresa que recopila reseñas de restaurantes, e incluyen los nombres, direcciones y números de teléfono de los restaurantes, así como otra información sobre ellos.
La columna city
contiene el nombre de la ciudad en la que se encuentra el restaurante. Sin embargo, hay varias erratas a lo largo de la columna. Su tarea consiste en asignar cada city
a una de las cinco ciudades correctamente escritas contenidas en el marco de datos cities
.
dplyr
y fuzzyjoin
están cargados, y zagat
y cities
están disponibles.
Este ejercicio forma parte del curso
Limpieza de datos en R
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Count the number of each city variation
zagat %>%
count(___)