1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v Pythonu

Connected

Cvičení

Hraniční hodnota podobnosti

V tomto cvičení, a v celé této kapitole, budeš pracovat s DataFrame restaurants, který obsahuje data o různých restauracích. Tvým hlavním cílem je vytvořit systém doporučování restaurací, ale nejdřív je potřeba data vyčistit.

Tato verze restaurants byla sesbírána z mnoha zdrojů, přičemž sloupec cuisine_type je plný překlepů a má obsahovat pouze typy kuchyně italian, american a asian. Unikátních kategorií je tolik, že jejich ruční přemapování není praktické – lepší volbou je využít podobnost řetězců.

Předtím ale chceš určit hraniční hodnotu skóre podobnosti. Použij funkci process.extract() z knihovny thefuzz a najdi skóre podobnosti pro nejvzdálenější překlep v každé kategorii.

Pokyny 1/2

undefined XP
    1
    2
  • Importuj process z thefuzz.
  • Ulož unikátní hodnoty cuisine_type do proměnné unique_types.
  • Pomocí process.extract() vypočítej podobnost řetězců 'asian', 'american' a 'italian' ke všem možným hodnotám cuisine_type – vrať všechny možné shody.