1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark入門

Connected

연습 문제

仲介役を省こう

pandas を使って Spark にデータを取り込む方法は分かりましたが、「そもそもなぜ pandas を介するの?」と思うかもしれません。テキストファイルをそのまま Spark に読み込めたら簡単ですよね。もちろん、その通りです!

幸い、SparkSession には .read という属性があり、さまざまなデータソースを Spark の DataFrame に読み込むためのメソッドが用意されています。これらを使えば、通常の pandas の DataFrame と同じように、.csv ファイルから DataFrame を作成できます!

変数 file_path には、airports.csv へのパスを表す文字列が入っています。このファイルには、世界各地の空港に関する情報が含まれています。

ワークスペースには spark という名前の SparkSession が用意されています。

지침

100 XP
  • .read.csv() メソッドを使って、airports という Spark DataFrame を作成します
    • 最初の引数は file_path です
    • 引数 header=True を渡し、ファイルの先頭行を列名として認識させます。
  • .show() を呼び出して、この DataFrame を表示します。