1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regular Expressions in R

Connected

cvičení

Spojení pomocí vzdálenosti řetězců

Propojování dvou různých datových zdrojů je v analýze dat velmi běžný úkol. Kdykoli je to možné, měl bys ke spojení tabulek používat jednoznačně identifikovatelné hodnoty, jako je třeba e-mailová adresa. Ale co když uživatel zadal jen své jméno a ty ho musíš dohledat v databázi? Potíž je v tom, že lidé mohou jméno zkrátit, přepsat nebo vynechat jeho část.

V prostředí máš k dispozici dva datové rámce: user_input a database. První obsahuje chybně zadané vstupy od uživatelů, druhý správná jména – oba zdroje přitom obsahují stejných 100 jmen. Kolik z nich se podaří spojit pomocí vzdálenosti řetězců? Mimochodem: metoda method není zadána, takže se použije výchozí metoda Optimal String Alignment "osa".

Pokyny

100 XP
  • Spoj user_input a database s maximální vzdáleností řetězců max_dist tak, aby bylo úspěšně spárováno přesně osmdesát jmen. Experimentuj, dokud nenajdeš správnou maximální vzdálenost.
  • Pomocí nově vytvořené tabulky joined vypiš přehlednou zprávu ve srozumitelné podobě.