1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w Pythonie

Connected

ćwiczenie

Pary restauracji

W poprzedniej lekcji wyczyściłeś zbiór danych restaurants, przygotowując go do budowy systemu rekomendacji restauracji. Masz teraz nową ramkę danych restaurants_new z nowymi restauracjami, na których wytrenujesz model – dane zostały pobrane z nowego źródła.

Kolumny cuisine_type i city wyczyściłeś już przy użyciu technik poznanych w tym kursie. Jednak w nazwach restauracji zauważono duplikaty z literówkami, które wymagają łączenia rekordów zamiast złączeń z restaurants.

W tym ćwiczeniu wykonasz pierwszy krok łączenia rekordów i wygenerujesz możliwe pary wierszy między restaurants a restaurants_new. W środowisku dostępne są obie ramki danych, pandas oraz recordlinkage.

Instrukcje 1/2

undefined XP
    1
    2
  • Utwórz obiekt indeksujący, używając funkcji Index() z biblioteki recordlinkage.
  • Ogranicz parowanie do kolumny cuisine_type, korzystając z metody .block() obiektu indexer.
  • Wygeneruj pary, indeksując kolejno restaurants i restaurants_new.