1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Oprava překlepů pomocí vzdálenosti řetězců

V této kapitole budeš pracovat mimo jiné s datasetem zagat, který obsahuje restaurace v New Yorku, Los Angeles, Atlantě, San Franciscu a Las Vegas. Data pocházejí ze společnosti Zagat, která sbírá recenze restaurací, a zahrnují názvy restaurací, adresy, telefonní čísla a další informace.

Sloupec city obsahuje název města, ve kterém se daná restaurace nachází. V celém sloupci se ale vyskytuje řada překlepů. Tvým úkolem je přiřadit každou hodnotu city k jednomu ze správně napsaných pěti měst obsažených v datovém rámci cities.

dplyr a fuzzyjoin jsou načteny, zagat a cities jsou k dispozici.

Pokyny 1/2

undefined XP
    1
    2
  • Spočítej počet výskytů každé varianty názvu city v datasetu zagat.