1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

パート2:DataFrame に対する SQL クエリ

作成した fifa_df DataFrame には、データ型や列名などの追加情報が含まれています。これにより、PySpark SQL は DataFrame に対して SQL クエリを実行できます。SQL クエリは DataFrame 操作に比べて簡潔で実行しやすいです。ただし、DataFrame に SQL クエリを適用するには、まず DataFrame の一時ビューをテーブルとして作成し、その作成したテーブルに対して SQL クエリを実行します(SQL クエリのプログラム的実行)。

このパートでは、fifa_df DataFrame の一時テーブルを作成し、ドイツ出身の選手の「Age」列を抽出するために SQL クエリを実行します。

ワークスペースにはすでに SparkContext の spark と fifa_df が用意されています。

指示

100 XP
  • fifa_df DataFrame から一時テーブル fifa_df_table を作成します。
  • fifa_df_table からドイツの選手の "Age" 列を抽出する「query」を作成します。
  • その SQL の「query」を適用して、新しい DataFrame fifa_df_germany_age を作成します。
  • 作成した DataFrame の基本統計量を計算します。