1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark入門

Connected

연습 문제

Spark DataFrame を pandas 化しよう

巨大なデータセットに対してクエリを実行し、少し扱いやすいサイズまで集計したとします。

そのテーブルを pandas のようなツールでローカルに扱う方がよい場合もあります。Spark DataFrame では、.toPandas() メソッドでそれが簡単にできます。Spark DataFrame に対してこのメソッドを呼び出すと、対応する pandas の DataFrame が返されます。とてもシンプルです!

今回は、SEA と PDX から各空港へのフライト数を数えるクエリです。

作業スペースには、すでに spark という SparkSession が用意されています!

지침

100 XP
  • .sql() メソッドでクエリを実行し、結果を flight_counts に保存します。
  • flight_counts に対して .toPandas() メソッドを使い、pandas の DataFrame pd_counts を作成します。
  • pd_counts の .head() をコンソールに出力します。