Correção de erros de digitação com distância de string
Neste capítulo, um dos conjuntos de dados com o qual você trabalhará, zagat
, é um conjunto de restaurantes em Nova York, Los Angeles, Atlanta, São Francisco e Las Vegas. Os dados são da Zagat, uma empresa que coleta avaliações de restaurantes, e incluem os nomes, endereços e números de telefone dos restaurantes, além de outras informações sobre eles.
A coluna city
contém o nome da cidade em que o restaurante está localizado. No entanto, há vários erros de digitação na coluna. Sua tarefa é mapear cada city
para uma das cinco cidades com a grafia correta contidas no quadro de dados cities
.
dplyr
e fuzzyjoin
estão carregados, e zagat
e cities
estão disponíveis.
Este exercício faz parte do curso
Limpeza de dados no R
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Count the number of each city variation
zagat %>%
count(___)