1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regular Expressions in R

Connected

cvičení

Vyzkoušení různých metod

Výborně, už znáš několik metod výpočtu vzdálenosti řetězců. Která metoda je nejvhodnější, závisí na mnoha okolnostech – proto se vyplatí různé metody a jejich parametry trochu prozkoumat a vyzkoušet. V tomto cvičení použiješ hledaný výraz "Marya Carey" – chybně napsanou verzi jména "Mariah Carey". Jak podobné je chybně napsané jméno tomu správnému při použití různých metod výpočtu vzdálenosti řetězců?

Cílem je najít parametry, které pro tato dvě jména vrátí malou vzdálenost, a zároveň zachovají velkou vzdálenost od ostatních jmen v seznamu, která hledanou osobu nepředstavují.

Pokyny

100 XP
  • Vygeneruj q-gramy pro délky podřetězců 1 a 2.
  • Vypočítej vzdálenost řetězců mezi search a names pomocí metody q-gramů pro délky podřetězců 1 a 2.
  • Vypočítej vzdálenost řetězců mezi search a names pomocí metody "osa".