1. 学习
  2. /
  3. 课程
  4. /
  5. SQL Server データベースでのデータクレンジング

Connected

练习

SOUNDEX() で名前を比較する

'Illinois' を 'Ilynois' としてしまうような乱れた文字列は、データ分析の妨げになります。だからこそ、早めに検出することが重要です。

flight_statistics テーブルを分析すると、statistician_name と statistician_surname に表記ゆれがあることに気づきます。たとえば、Miriam Smith と Myriam Smyth のように綴りが異なります。他にも同様の違いがありそうなので、これらの名前をすべて確認したいと考えています。

そこで、統計担当者の名前を SOUNDEX() で比較することにします。比較する2つの文字列が異なるのに、SOUNDEX() の結果が同じであれば、クレンジングが必要なデータを見つけられます。

说明

100 XP
  • S1 から statistician_name と statistician_surname 列の重複のない値を選択します。
  • SOUNDEX() を使って発音が似ている名と姓で結合し、flight_statistics テーブルを S2 として内部結合します。
  • S1 と S2 でそれぞれ statistician_name と statistician_surname が異なる行だけに絞り込みます。