1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

テーブルをフィルタリングするSQLクエリ

前の演習では、DataFrameに対してシンプルなSQLクエリを実行しました。可視化やMachine Learningなどの後続の分析に使えるように、より高度なクエリを作成して、必要な結果を得ることもできます。この演習では、先ほど作成した一時テーブル people を使い、"sex" が male と female の行をそれぞれ抽出して、2つのDataFrameを作成します。

なお、「解答」はSQLコマンドの大文字・小文字を区別します(たとえば FROM は受け付けますが from は不可)。また、「解答」では == のみを受け付け、= は不可です。

ワークスペースにはすでに SparkSession spark と一時テーブル people が用意されています。

指示

100 XP
  • people テーブルをフィルタリングし、sex が female のすべての行を people_female_df DataFrame に取得します。
  • people テーブルをフィルタリングし、sex が male のすべての行を people_male_df DataFrame に取得します。
  • people_female と people_male の両方のDataFrameで、行数をカウントします。