1. 学ぶ
  2. /
  3. コース
  4. /
  5. SQL Server データベースでのデータクレンジング

Connected

演習

DIFFERENCE() で名前を比較する

前の演習では、flight_statistics テーブルにある統計担当者の名前を SOUNDEX() で確認しました。

今回は同様のことを、DIFFERENCE() 関数を使って行います。DIFFERENCE() は、2 つの文字列が同じ、または非常に似ている場合に 4 を返し、ほとんど似ていない場合は 0 を返します。

もし 2 つの文字列の DIFFERENCE() の結果が 4 なのに、実際のテキストは異なる場合、そのデータはクリーニング対象である可能性があります。

指示

100 XP
  • S1 から statistician_name 列と statistician_surname 列の重複のない値を選択します。
  • flight_statistics テーブルを S2 として内部結合し、各テーブルの対応する列同士の DIFFERENCE が 4 となる、発音が似ている名と姓で結合します。
  • S1 と S2 でそれぞれ statistician_name と statistician_surname の値が一致していない行のみを抽出するようにフィルターします。