1. Learn
  2. /
  3. कोर्स
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

अभ्यास

チブルの構造を調べる

Spark に格納されたデータを表すチブルを表示しようとすると、少し特別な処理が行われます。チブル自体はデータのコピーを保持していないためです。具体的には、print メソッドが Spark 接続を使用してデータの一部を R にコピーし、まるでローカルに保存されているかのように表示します。この章の前半でも見たとおり、データのコピーは時間のかかる処理です。そのため、デフォルトでは 10 行分と画面に収まる列数のみが表示されます。

表示する行数は、print() の n 引数で変更できます。また、width 引数で表示するコンテンツの幅を指定することもできます。この値は列数ではなく文字数で指定します。width = Inf を使うと、すべての列を表示できて便利です。

str() 関数は、変数の構造を表示するために一般的に使われます。data.frame に対しては、各列の型と最初のいくつかの値をまとめて表示してくれます。ただし、リモートデータソースを持つチブルに対しては、str() はデータの取得方法を知りません。そのため、Spark に格納されたデータを持つチブルに対して str() を呼び出すと、Spark 接続オブジェクトやいくつかの付随情報を含むリストが表示されます。

チブルが参照するデータセットの各列の概要を確認するには、代わりに glimpse() を使いましょう。なお、Spark クラスターに格納されたデータなどのリモートデータの場合、行数の表示は正確ではありません。この場合、glimpse() は行数を正しく報告できないことに注意してください。

निर्देश

100 XP

Spark 接続が spark_conn として作成済みです。また、Spark に格納されたトラックメタデータに紐付けられたチブルが track_metadata_tbl として事前に定義されています。

  • トラックメタデータの最初の 5 行とすべての列を表示しましょう。
  • str() を使って、チブルの構造を確認しましょう。
  • glimpse() を使って、トラックメタデータの構造を確認しましょう。