1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w R

Connected

ćwiczenie

Poprawianie literówek za pomocą odległości między ciągami znaków

W tym rozdziale będziesz pracować ze zbiorem danych zagat, który zawiera informacje o restauracjach w Nowym Jorku, Los Angeles, Atlancie, San Francisco i Las Vegas. Dane pochodzą z serwisu Zagat – firmy zbierającej recenzje restauracji – i obejmują m.in. nazwy restauracji, adresy, numery telefonów oraz inne szczegóły.

Kolumna city zawiera nazwę miasta, w którym znajduje się dana restauracja. Niestety w kolumnie tej znajdziesz liczne literówki. Twoim zadaniem jest przyporządkowanie każdej wartości z kolumny city do jednej z pięciu poprawnie zapisanych nazw miast, które znajdują się w ramce danych cities.

Biblioteki dplyr i fuzzyjoin są już wczytane, a zbiory danych zagat i cities są dostępne.

Instrukcje 1/2

undefined XP
    1
    2
  • Policz, ile razy każdy wariant nazwy kolumny city pojawia się w zbiorze zagat.