SQL と Parquet

Parquet ファイルは、Spark で SQL クエリを実行するためのバックエンドデータストアとして最適です。同じクエリを Spark の Python 関数で直接実行することもできますが、Python の選択肢と並行して SQL クエリを使ったほうが簡単な場合もあります。

この例では、前の演習で作成した Parquet ファイルを読み込み、SQL テーブルとして登録します。登録ができたら、そのテーブル（＝Parquet ファイル）に対して簡単なクエリを実行します。

spark オブジェクトと AA_DFW_ALL.parquet ファイルは自動的に利用できます。