LoslegenKostenlos starten

Tippfehler mit String-Distanz korrigieren

In diesem Kapitel arbeitest du mit dem Datensatz zagat, einer Sammlung von Restaurants in New York, Los Angeles, Atlanta, San Francisco und Las Vegas. Die Daten stammen von Zagat, einem Unternehmen, das Restaurantbewertungen sammelt, und enthalten unter anderem Restaurantnamen, Adressen, Telefonnummern sowie weitere Informationen.

Die Spalte city enthält den Namen der Stadt, in der sich das Restaurant befindet. Allerdings gibt es in dieser Spalte einige Tippfehler. Deine Aufgabe ist es, jede city einem der fünf korrekt geschriebenen Städtenamen im Data Frame cities zuzuordnen.

dplyr und fuzzyjoin sind geladen, und zagat sowie cities sind verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung in R</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Count the number of each city variation
zagat %>%
  count(___)
Code bearbeiten und ausführen