1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

Query(クエリ)してみましょう?

DataFrame インターフェイスの利点の 1 つは、Spark クラスター内のテーブルに対して SQL クエリを実行できることです。SQL の経験がなくても心配いりません。こちらでクエリを用意しています!(SQL をもっと学びたい場合は、Introduction to SQL コースから始めてみてください。)

前の演習で見たように、クラスターには flights テーブルがあります。このテーブルには、2014 年と 2015 年に Portland International Airport(PDX)または Seattle-Tacoma International Airport(SEA)を出発した各フライトの行が含まれています。

このテーブルに対してクエリを実行するのは簡単で、SparkSession の .sql() メソッドを使います。このメソッドはクエリ文字列を受け取り、結果を含む DataFrame を返します!

よく見ると、クエリ内で flights テーブルに言及しているだけで、どのメソッドの引数にも渡していないことに気づくはずです。これは、ローカル環境にそのデータを保持するオブジェクトが存在しないため、テーブルを引数として渡しても意味がないからです。

ワークスペースにはすでに spark という SparkSession を作成済みです(こちらで用意したので、もう my_spark とは呼びません!)。

指示

100 XP
  • .sql() メソッドを使って flights テーブルの先頭 10 行を取得し、結果を flights10 に保存してください。変数 query には適切な SQL クエリが入っています。
  • DataFrame メソッド .show() を使って flights10 を表示してください。