1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

SQL クエリをプログラムで実行する

PySpark では、DataFrame を SQL クエリで簡単に操作できます。SparkSession の sql() 関数を使うと、アプリケーションからプログラム的に SQL クエリを実行し、その結果を別の DataFrame として受け取れます。この演習では、前に作成した DataFrame から一時テーブルを作成し、その一時テーブルから人名を選択するクエリを組み立て、結果を新しい DataFrame に代入します。

ワークスペースにはすでに SparkSession の spark と DataFrame が用意されています。

指示

100 XP
  • 一時テーブル people を作成します。
  • 一時テーブル people から人名を選択する query を作成します。
  • Spark の query の結果を新しい DataFrame people_df_names に代入します。
  • people_df_names DataFrame から上位 10 件の人名を表示します。