1. Обучение
  2. /
  3. Курса
  4. /
  5. Очистка данных в Python

Connected

упражнение

Пороговое значение

В этом упражнении, как и на протяжении всей главы, вы будете работать с DataFrame restaurants, который содержит данные о различных ресторанах. Ваша конечная цель — создать систему рекомендации ресторанов, однако сначала нужно привести данные в порядок.

Эта версия restaurants собрана из множества источников, и в столбце cuisine_type встречается много опечаток. Он должен содержать только значения italian, american и asian. Уникальных категорий настолько много, что переименовывать их вручную нецелесообразно — лучше воспользоваться схожестью строк.

Прежде чем приступать к этому, определите пороговое значение оценки схожести с помощью функции process.extract() из библиотеки thefuzz, найдя оценку схожести для наиболее отдалённой опечатки в каждой категории.

Инструкции 1/2

undefined XP
    1
    2
  • Импортируйте process из thefuzz.
  • Сохраните уникальные значения cuisine_type в переменную unique_types.
  • Вычислите схожесть строк 'asian', 'american' и 'italian' со всеми возможными значениями cuisine_type с помощью process.extract(), вернув все возможные совпадения.