1. 学ぶ
  2. /
  3. コース
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

演習

グループへの mutate 適用

グループ別の要約統計量を計算するだけでなく、グループ固有の値を使って列を mutate することもできます。たとえば、値を正規化する手法として、平均を引いてから標準偏差で割る方法があります。グループ固有の正規化は、次のコードで実行できます。

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

指示

100 XP

Spark への接続は spark_conn として作成済みです。Spark に保存されたトラックのメタデータに紐付けられた tibble は track_metadata_tbl として事前に定義されています。

  • track_metadata の内容を artist_name でグループ化します。
  • time_since_first_release という新しい列を追加します。
    • この列は、グループ内の year からそのアーティストが初めてトラックをリリースした年(つまり min() の year)を引いた値にします。
  • time_since_first_release の降順で行を並べ替えます。