1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Punkt odcięcia

W tym ćwiczeniu – i przez cały ten rozdział – będziesz pracować z DataFrame restaurants, który zawiera dane o różnych restauracjach. Twoim ostatecznym celem jest stworzenie silnika rekomendacji restauracji, ale najpierw musisz oczyścić dane.

Ta wersja zbioru restaurants została zebrana z wielu źródeł. Kolumna cuisine_type jest pełna literówek i powinna zawierać wyłącznie wartości italian, american oraz asian. Unikalnych kategorii jest jednak tak wiele, że ręczne ich poprawianie nie jest skalowalne – najlepiej skorzystać z podobieństwa ciągów znaków.

Zanim to zrobisz, chcesz wyznaczyć punkt odcięcia dla oceny podobieństwa. Użyj funkcji process.extract() z biblioteki thefuzz, aby znaleźć wynik podobieństwa dla najbardziej odległej literówki w każdej kategorii.

Instrukcje 1/2

undefined XP
    1
    2
  • Zaimportuj process z biblioteki thefuzz.
  • Zapisz unikalne wartości cuisine_type do zmiennej unique_types.
  • Oblicz podobieństwo wartości 'asian', 'american' i 'italian' do wszystkich możliwych wartości cuisine_type za pomocą funkcji process.extract(), zwracając wszystkie możliwe dopasowania.