Corriger les fautes de frappe avec la distance de chaînes
Dans ce chapitre, l’un des jeux de données avec lequel vous allez travailler, zagat, est un ensemble de restaurants à New York, Los Angeles, Atlanta, San Francisco et Las Vegas. Les données proviennent de Zagat, une entreprise qui collecte des avis sur les restaurants, et comprennent les noms des restaurants, les adresses, les numéros de téléphone, ainsi que d’autres informations.
La colonne city contient le nom de la ville où se trouve le restaurant. Cependant, elle comporte de nombreuses fautes de frappe. Votre mission est d’associer chaque valeur de city à l’une des cinq villes correctement orthographiées présentes dans le data frame cities.
dplyr et fuzzyjoin sont chargés, et zagat et cities sont disponibles.
Cet exercice fait partie du cours
Nettoyer des données avec R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Count the number of each city variation
zagat %>%
count(___)