1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySpark入門

Connected

演習

Spark DataFrame を pandas 化しよう

巨大なデータセットに対してクエリを実行し、少し扱いやすいサイズまで集計したとします。

そのテーブルを pandas のようなツールでローカルに扱う方がよい場合もあります。Spark DataFrame では、.toPandas() メソッドでそれが簡単にできます。Spark DataFrame に対してこのメソッドを呼び出すと、対応する pandas の DataFrame が返されます。とてもシンプルです!

今回は、SEA と PDX から各空港へのフライト数を数えるクエリです。

作業スペースには、すでに spark という SparkSession が用意されています!

指示

100 XP
  • .sql() メソッドでクエリを実行し、結果を flight_counts に保存します。
  • flight_counts に対して .toPandas() メソッドを使い、pandas の DataFrame pd_counts を作成します。
  • pd_counts の .head() をコンソールに出力します。