CommencerCommencer gratuitement

Corriger les fautes de frappe avec la distance de chaînes

Dans ce chapitre, l’un des jeux de données avec lequel vous allez travailler, zagat, est un ensemble de restaurants à New York, Los Angeles, Atlanta, San Francisco et Las Vegas. Les données proviennent de Zagat, une entreprise qui collecte des avis sur les restaurants, et comprennent les noms des restaurants, les adresses, les numéros de téléphone, ainsi que d’autres informations.

La colonne city contient le nom de la ville où se trouve le restaurant. Cependant, elle comporte de nombreuses fautes de frappe. Votre mission est d’associer chaque valeur de city à l’une des cinq villes correctement orthographiées présentes dans le data frame cities.

dplyr et fuzzyjoin sont chargés, et zagat et cities sont disponibles.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Count the number of each city variation
zagat %>%
  count(___)
Modifier et exécuter le code