Spark DataFrame を pandas 化しよう

巨大なデータセットに対してクエリを実行し、少し扱いやすいサイズまで集計したとします。

そのテーブルを pandas のようなツールでローカルに扱う方がよい場合もあります。Spark DataFrame では、.toPandas() メソッドでそれが簡単にできます。Spark DataFrame に対してこのメソッドを呼び出すと、対応する pandas の DataFrame が返されます。とてもシンプルです！

今回は、SEA と PDX から各空港へのフライト数を数えるクエリです。

作業スペースには、すでに spark という SparkSession が用意されています！

この演習はコースの一部です

PySpark入門

コースを見る

演習の手順

.sql() メソッドでクエリを実行し、結果を flight_counts に保存します。
flight_counts に対して .toPandas() メソッドを使い、pandas の DataFrame pd_counts を作成します。
pd_counts の .head() をコンソールに出力します。

実践的なインタラクティブ演習

このサンプルコードを完成させて、この演習に挑戦してみましょう。

# Don't change this query
query = "SELECT origin, dest, COUNT(*) as N FROM flights GROUP BY origin, dest"

# Run the query
flight_counts = ____

# Convert the results to a pandas DataFrame
pd_counts = ____

# Print the head of pd_counts
print(____)

コードを編集して実行