接続・作業・切断のパターン

sparklyr を使った作業は、データベース内のデータを扱う dplyr の操作とよく似ています。実際、sparklyr は R のコードを SQL に変換してから Spark に渡す仕組みになっています。

典型的なワークフローは次の3ステップです。

この演習では、最もシンプルな作業として、spark_version() を使って実行中の Spark のバージョンを返す操作を行います。

spark_connect() には、Spark の場所を示す URL を指定します。ローカルクラスター（今回のような環境）の場合、URL は "local" を指定します。リモートクラスター（別のマシン、通常は高性能サーバー）の場合は、接続先の URL とポートを指定します。

spark_version() と spark_disconnect() は、どちらも Spark の接続オブジェクトのみを引数として受け取ります。

1点注意があります。クラスターへの接続には数秒かかるため、頻繁に接続・切断を繰り返すのは現実的ではありません。DataCamp の各演習では毎回接続が必要ですが、実際の作業に sparklyr を組み込む際は、Spark を使う間は接続を開いたままにしておくのが通常は最善の方法です。

library() を使って sparklyr パッケージを読み込みます。
spark_connect() に引数 master = "local" を指定して Spark に接続し、結果を spark_conn に代入します。
spark_version() に引数 sc = spark_conn を指定して Spark のバージョンを取得します。
spark_disconnect() に引数 sc = spark_conn を指定して Spark との接続を切断します。

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習