Punkt odcięcia

W tym ćwiczeniu – i przez cały ten rozdział – będziesz pracować z DataFrame restaurants, który zawiera dane o różnych restauracjach. Twoim ostatecznym celem jest stworzenie silnika rekomendacji restauracji, ale najpierw musisz oczyścić dane.

Ta wersja zbioru restaurants została zebrana z wielu źródeł. Kolumna cuisine_type jest pełna literówek i powinna zawierać wyłącznie wartości italian, american oraz asian. Unikalnych kategorii jest jednak tak wiele, że ręczne ich poprawianie nie jest skalowalne – najlepiej skorzystać z podobieństwa ciągów znaków.

Zanim to zrobisz, chcesz wyznaczyć punkt odcięcia dla oceny podobieństwa. Użyj funkcji process.extract() z biblioteki thefuzz, aby znaleźć wynik podobieństwa dla najbardziej odległej literówki w każdej kategorii.

Zaimportuj process z biblioteki thefuzz.
Zapisz unikalne wartości cuisine_type do zmiennej unique_types.
Oblicz podobieństwo wartości 'asian', 'american' i 'italian' do wszystkich możliwych wartości cuisine_type za pomocą funkcji process.extract(), zwracając wszystkie możliwe dopasowania.

ćwiczenie

Punkt odcięcia

Instrukcje 1/2

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje 1/2

ćwiczenie