1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark でデータをクレンジングする

Connected

演習

SQL と Parquet

Parquet ファイルは、Spark で SQL クエリを実行するためのバックエンドデータストアとして最適です。 同じクエリを Spark の Python 関数で直接実行することもできますが、Python の選択肢と並行して SQL クエリを使ったほうが簡単な場合もあります。

この例では、前の演習で作成した Parquet ファイルを読み込み、SQL テーブルとして登録します。 登録ができたら、そのテーブル(=Parquet ファイル)に対して簡単なクエリを実行します。

spark オブジェクトと AA_DFW_ALL.parquet ファイルは自動的に利用できます。

指示

100 XP
  • AA_DFW_ALL.parquet ファイルを flights_df に読み込みます。
  • createOrReplaceTempView メソッドを使って、flights という別名でテーブルを登録します。
  • flights テーブルに対して Spark SQL クエリを実行します。