1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

Cvičení

Páry restaurací

V poslední lekci jsi vyčistil/a dataset restaurants, aby byl připravený pro sestavení doporučovacího systému restaurací. Máš k dispozici nový DataFrame restaurants_new s novými restauracemi, na kterých budeš trénovat svůj model – ta data byla získána scrapingem z nového zdroje.

Sloupce cuisine_type a city jsi už vyčistil/a pomocí technik, které ses naučil/a v průběhu kurzu. Všiml/a sis ale duplicit s překlepy v názvech restaurací, které vyžadují propojování záznamů (record linkage) místo klasického joinu s restaurants.

V tomto cvičení provedeš první krok propojování záznamů a vygeneruješ možné páry řádků mezi restaurants a restaurants_new. V prostředí máš k dispozici oba DataFramy, pandas i recordlinkage.

Pokyny 1/2

undefined XP
    1
    2
  • Vytvoř indexovací objekt pomocí funkce Index() z balíčku recordlinkage.
  • Nastav blokování párování na sloupec cuisine_type pomocí metody .block() objektu indexer.
  • Vygeneruj páry indexováním restaurants a restaurants_new v tomto pořadí.