1. 学ぶ
  2. /
  3. コース
  4. /
  5. SQLで学ぶ探索的データ分析

Connected

演習

値のグループ化と再コード化

evanston311.category には約150個の異なる値があります。ただし、これらのカテゴリの一部は「メインカテゴリ - 詳細」という形式で似ています。メインカテゴリで集計すると、どのリクエストが多いかをより把握しやすくなります。

そのために、一時テーブル recode を作成し、category の重複なしの値を新しい standardized 値に対応付けます。standardized にはダッシュ('-')より前の部分を使います。この値は split_part() 関数で抽出できます。

split_part(string text, delimiter text, field int)

このパターンに当てはまらないいくつかのケースについては、追加のクリーンアップも必要です。

その後、evanston311 テーブルを recode と結合して、新しい standardized カテゴリごとにリクエストをグループ化できます。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • standardized 列を持つ recode を作成します。split_part() を使い、その結果に対して rtrim() を使って末尾の空白を取り除きます。