1. Nauka
  2. /
  3. Kursy
  4. /
  5. Czyszczenie danych w bazach danych SQL Server

Connected

ćwiczenie

Porównywanie imion i nazwisk za pomocą SOUNDEX()

Nieprawidłowe ciągi znaków, takie jak 'Ilynois' zamiast 'Illinois', mogą powodować problemy podczas analizy danych. Dlatego tak ważne jest ich wykrywanie.

Analizując tabelę flight_statistics, zauważasz, że niektóre wartości w kolumnach statistician_name i statistician_surname są zapisane w różny sposób – na przykład Miriam Smith i Myriam Smyth. Obawiasz się, że podobnych różnic jest więcej, i chcesz je wszystkie sprawdzić.

Postanawiasz użyć funkcji SOUNDEX() do porównania imion i nazwisk statystyków. Jeśli wynik SOUNDEX() będzie taki sam, ale porównywane teksty będą się różnić, znajdziesz dane wymagające oczyszczenia.

Instrukcje

100 XP
  • Wybierz unikalne wartości kolumn statistician_name i statistician_surname z tabeli S1.
  • Wykonaj złączenie wewnętrzne (INNER JOIN) tabeli flight_statistics jako S2 na podstawie podobnie brzmiących imion i nazwisk, używając funkcji SOUNDEX().
  • Odfiltruj wiersze, w których wartości kolumn statistician_name i statistician_surname różnią się od siebie odpowiednio w tabelach S1 i S2.