1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

並列化したコレクションからのRDD作成

Resilient Distributed Dataset(RDD)は、Spark における基本的な抽象化です。RDD はオブジェクトの不変な分散コレクションです。RDD は Spark の基盤となるデータ型なので、その作り方を理解しておくことが重要です。この演習では、単語のコレクションから PySpark で最初の RDD を作成します。

作業環境にはすでに SparkContext の sc が用意されています。

指示

100 XP
  • 単語のPython リストから RDD という名前の RDD を作成します。
  • 作成したオブジェクトが RDD であることを確認します。