1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

データのパーティション

SparkContext の textFile() メソッドには、最小パーティション数を指定するオプションの第2引数 minPartitions があります。この演習では、5つのパーティションを持つ RDD fileRDD_part を作成し、前の演習で作成した fileRDD と比較します。RDD のパーティション数を作成・取得する方法は、ビデオ 2.1 の「Understanding Partition」スライドを参照してください。

作業スペースにはすでに SparkContext sc、file_path、fileRDD が用意されています。

指示

100 XP
  • fileRDD RDD を支えるパーティションの数を確認します。
  • ファイルパスから RDD fileRDD_part を作成し、パーティション数を 5 にします。
  • 新しい RDD fileRDD_part のパーティション数を確認します。