仲介役を省こう

pandas を使って Spark にデータを取り込む方法は分かりましたが、「そもそもなぜ pandas を介するの？」と思うかもしれません。テキストファイルをそのまま Spark に読み込めたら簡単ですよね。もちろん、その通りです！

幸い、SparkSession には .read という属性があり、さまざまなデータソースを Spark の DataFrame に読み込むためのメソッドが用意されています。これらを使えば、通常の pandas の DataFrame と同じように、.csv ファイルから DataFrame を作成できます！

変数 file_path には、airports.csv へのパスを表す文字列が入っています。このファイルには、世界各地の空港に関する情報が含まれています。