1. Дізнатися
  2. /
  3. Courses
  4. /
  5. Очищення даних у Python

Connected

exercise

Порогове значення

У цій вправі й протягом усього розділу ви працюватимете з датафреймом restaurants, який містить дані про різні ресторани. Ваша кінцева мета — створити систему рекомендацій ресторанів, але спершу потрібно очистити дані.

Цю версію restaurants зібрано з багатьох джерел, тож стовпець cuisine_type рясніє описками; у ньому мають бути лише типи кухні italian, american і asian. Категорій настільки багато й різних, що ручне перенесення не масштабоване, тож доцільніше скористатися схожістю рядків.

Перш ніж це робити, ви хочете визначити порогове значення для показника схожості за допомогою функції process.extract() з пакета thefuzz, обчисливши значення схожості для найвіддаленішої описки кожної категорії.

Інструкції 1 / 2

undefined XP
    1
    2
  • Імпортуйте process із thefuzz.
  • Збережіть унікальні значення cuisine_type у змінній unique_types.
  • Обчисліть схожість 'asian', 'american' і 'italian' з усіма можливими значеннями cuisine_type за допомогою process.extract(), повертаючи всі можливі збіги.