ファイルへの書き出し

動画では、分析で使えるようにするため、ファイルが Redshift のような MPP データベースにロードされることが多いと説明しました。

一般的なワークフローでは、まずデータをカラムナ形式のデータファイルに書き出します。これらのデータファイルをストレージシステムにアップロードし、そこからデータウェアハウスへコピーします。Amazon Redshift の場合、たとえばストレージシステムは S3 になります。

最初のステップは、正しい形式でファイルを書き出すことです。この演習では Apache Parquet 形式を選びます。

ワークスペースには、PySpark の DataFrame film_sdf と pandas の DataFrame film_pdf が用意されています。

pandas の DataFrame film_pdf を、"films_pdf.parquet" という名前の Parquet ファイルに書き出してください。
PySpark の DataFrame film_sdf を、"films_sdf.parquet" という名前の Parquet ファイルに書き出してください。