1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

外部データセットからの RDD

PySpark は、HDFS(Hadoop Distributed File System)や Amazon S3 バケットなどの外部ストレージに保存されたファイルから、簡単に RDD を作成できます。しかし、最も一般的な方法はローカルファイルシステムに保存されたファイルから RDD を作成することです。この方法では、ファイルパスを受け取り、そのファイルを行の集合として読み込みます。この演習では、ワークスペースにすでに用意されているファイル名 README.md のファイルパス(file_path)から RDD を作成します。

ワークスペースにはすでに SparkContext sc が用意されていることを思い出してください。

指示

100 XP
  • PySpark シェルで file_path を表示してください。
  • file_path から fileRDD という名前の RDD を作成してください。
  • 作成した fileRDD の型を表示してください。