1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Очистка данных в Python

Connected

cvičení

Пары ресторанов

На прошлом уроке вы очистили набор данных restaurants, чтобы подготовить его для построения системы рекомендации ресторанов. Теперь у вас есть новый DataFrame restaurants_new с новыми ресторанами для обучения модели — он был получен из нового источника данных.

Вы уже очистили столбцы cuisine_type и city с помощью методов, изученных в ходе курса. Однако в названиях ресторанов обнаружились дубликаты с опечатками, для работы с которыми нужна компоновка записей, а не объединение с restaurants.

В этом упражнении вы выполните первый шаг компоновки записей и сформируете возможные пары строк между restaurants и restaurants_new. В вашем окружении доступны оба DataFrame, а также библиотеки pandas и recordlinkage.

Pokyny 1/2

undefined XP
    1
    2
  • Создайте объект индексирования с помощью функции Index() из recordlinkage.
  • Задайте блокировку пар по столбцу cuisine_type, используя метод .block() объекта indexer.
  • Сформируйте пары, проиндексировав restaurants и restaurants_new в указанном порядке.