1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Cleaning Data in SQL Server Databases

Connected

cvičení

Porovnávání jmen pomocí SOUNDEX()

Chybně zapsané řetězce jako 'Ilynois' místo 'Illinois' mohou při analýze dat způsobit problémy. Proto je důležité je odhalit.

Při analýze tabulky flight_statistics zjistíš, že některá jména a příjmení ve sloupcích statistician_name a statistician_surname jsou zapsána různými způsoby – například Miriam Smith a Myriam Smyth. Obáváš se, že podobných rozdílů je víc, a chceš všechna tato jména zkontrolovat.

Napadne tě porovnat jména statistiků pomocí funkce SOUNDEX(). Pokud funkce SOUNDEX() vrátí stejný výsledek, ale porovnávané texty se liší, najdeš data, která je potřeba vyčistit.

Pokyny

100 XP
  • Vyber unikátní hodnoty sloupců statistician_name a statistician_surname z tabulky S1.
  • Proveď inner join tabulky flight_statistics jako S2 na základě podobně znějících křestních jmen a příjmení pomocí funkce SOUNDEX().
  • Odfiltruj záznamy, kde se hodnoty sloupců statistician_name a statistician_surname v tabulkách S1 a S2 navzájem liší.