1. Learn
  2. /
  3. Courses
  4. /
  5. Очищення даних у Python

Connected

Exercise

Пари ресторанів

У попередньому уроці ви почистили набір даних restaurants, щоб підготувати його для побудови рушія рекомендацій ресторанів. У вас є новий датафрейм restaurants_new з новими ресторанами для тренування моделі, який було зібрано з нового джерела даних.

Ви вже очистили стовпці cuisine_type і city, застосувавши техніки з цього курсу. Однак ви помітили дублікати з одруками в назвах ресторанів, що вимагають зв’язування записів (record linkage), а не злиття з restaurants.

У цій вправі ви виконаєте перший крок зв’язування записів і згенеруєте можливі пари рядків між restaurants і restaurants_new. Обидва датафрейми, а також pandas і recordlinkage, доступні у вашому середовищі.

Instructions 1/2

undefined XP
    1
    2
  • Створіть об’єкт індексування за допомогою функції Index() з пакета recordlinkage.
  • Заблокуйте складання пар за cuisine_type, використавши метод .block() об’єкта indexer.
  • Згенеруйте пари, індексуючи спочатку restaurants, а потім restaurants_new.