1. Дізнатися
  2. /
  3. Courses
  4. /
  5. Очищення даних у Python

Connected

exercise

Поєднаємо їх разом!

У попередньому уроці ви виконали основну частину роботи з пов’язування restaurants і restaurants_new. Ви згенерували різні пари потенційно відповідних рядків, шукали точні збіги в стовпцях cuisine_type і city, а для стовпця rest_name порівнювали схожість рядків. Датафрейм із балами ви зберегли в potential_matches.

Тепер нарешті час пов’язати обидва датафрейми. Спочатку ви витягнете з potential_matches всі індекси рядків restaurants_new, що збігаються за вказаними вище стовпцями. Потім відфільтруєте restaurants_new за цими індексами, а насамкінець об’єднаєте неповторювані значення з restaurants. У вашому середовищі доступні всі датафрейми, а також pandas, імпортований як pd.

Інструкції

100 XP
  • Відіберіть екземпляри potential_matches, у яких сума по рядку більша або дорівнює 3, використавши метод .sum().
  • Видобудьте другий рівень індексу стовпців із matches, який представляє індекси рядків відповідних записів із restaurants_new, за допомогою методу .get_level_values().
  • Зробіть підвибірку restaurants_new для рядків, яких немає в matching_indices.
  • Об’єднайте restaurants і non_dup.