1. 学ぶ
  2. /
  3. コース
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

演習

Sparkからデータを収集する

第1章の演習「tibbleの構造を調べる」で、tibbleはデータのコピーを保持しないことを学びました。データはSparkに置かれたままで、tibbleはSparkから取得したい内容の情報を保持しているだけです。

データをSparkからRに移したい場面はさまざまあります。すでに見てきたように、データを表示する際には一部のデータがSparkからRに移されます。また、グラフを作成したい場合や、Sparkで利用できないモデリング手法を使いたい場合にも、データを収集する必要があります。(Rは、あらゆるプログラミング言語の中でも最も豊富なモデルの選択肢を備えています。)

データをSparkからRに移すには、collect() を呼び出します。

指示

100 XP

Spark接続は spark_conn として作成済みです。Sparkに保存されたトラックのメタデータに紐付いたtibbleは、track_metadata_tbl として事前に定義されています。

  • track_metadata_tbl の行を artist_familiarity が0.9より大きい条件で絞り込み、結果を results に代入しましょう。
  • results のクラスを表示して、tbl_lazy(リモートデータ用)であることを確認しましょう。
  • 結果を収集して collected に代入しましょう。
  • collected のクラスを表示して、tbl_df(ローカルデータ用)であることを確認しましょう。