列の選択

Spark に格納されたデータフレームを操作する最も簡単な方法は、dplyr 構文を使うことです。dplyr 構文によるデータフレームの操作については、Data Manipulation with dplyr および Joining Data with dplyr コースで詳しく解説されています。次の章では、重要なポイントをひと通り学んでいきましょう。

dplyr には、データフレームに対して実行できる5つの主要な操作があります。列の選択、行のフィルタリング（絞り込み）、行の並べ替え、列の変更または追加、そして集計統計の計算です。

まずは列の選択から始めましょう。列を選択するには、select() を使います。tibble に続けて、保持したい列の名前を引用符なしで指定します。dplyr の関数は、magrittr のパイプ演算子 %>% と組み合わせて使うのが一般的です。x、y、z の3列を選択するには、次のように記述します。

a_tibble %>%
  select(x, y, z)

sparklyr では、現在のところ角括弧によるインデックス指定はサポートされていません。そのため、次のような書き方はできません。

a_tibble[, c("x", "y", "z")]

Spark への接続は spark_conn としてあらかじめ作成されています。また、Spark に格納されたトラックのメタデータに紐づく tibble は track_metadata_tbl として定義済みです。

select() を使って、artist_name、release、title、year の各列を選択しましょう。
角括弧によるインデックス指定で同じことを試みましょう。このコードはエラーを発生させます。そのため、tryCatch() の呼び出しでラップされています。

演習

列の選択

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習