1. 学ぶ
  2. /
  3. コース
  4. /
  5. sparklyr を使った Spark 入門(R)

Connected

演習

重複のない行を選択する

カテゴリ変数がファクター型として格納されている場合、各カテゴリの値を確認したいことがよくあります。そのためには levels() 関数を使います。tibble の場合は、特定の列の組み合わせに対してユニークな行を見つけるという、より一般的なアプローチを取ります。SQL の用語に倣い、これには distinct() 関数を使います。データセットに直接適用することで、指定した列の値のユニークな組み合わせを取得できます。たとえば、x、y、z 列のユニークな組み合わせを取得するには、次のように記述します。

a_tibble %>%
  distinct(x, y, z)

指示

100 XP

Spark への接続は spark_conn として作成済みです。Spark に格納されたトラックのメタデータに紐付けられた tibble は、track_metadata_tbl としてあらかじめ定義されています。

  • track_metadata_tbl の artist_name 列からユニークな値を取得しましょう。