1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶBig Data入門

Connected

演習

RDD から DataFrame へ

RDD と同様に、DataFrame も Spark における不変かつ分散したデータ構造です。RDD は Spark の基本的なデータ構造ですが、実務では RDD よりも DataFrame のほうが扱いやすい場面が多いです。したがって、RDD を DataFrame に変換する方法を理解しておくことが重要です。

この演習では、まずすでに用意されている sample_list から RDD を作成します。この RDD は、各タプルに人名と年齢を含む ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26) のリストです。次に、この RDD とスキーマ('Name' と 'Age' のリスト)を使って DataFrame を作成し、最後に出力が PySpark の DataFrame であることを確認します。

作業スペースにはすでに SparkContext sc と SparkSession spark が用意されています。

指示

100 XP
  • sample_list から RDD を作成します。
  • 上で作成した RDD とスキーマを使って PySpark の DataFrame を作成します。
  • 出力が PySpark の DataFrame であることを確認します。