重複のない行を選択する

カテゴリ変数がファクター型として格納されている場合、各カテゴリの値を確認したいことがよくあります。そのためには levels() 関数を使います。tibble の場合は、特定の列の組み合わせに対してユニークな行を見つけるという、より一般的なアプローチを取ります。SQL の用語に倣い、これには distinct() 関数を使います。データセットに直接適用することで、指定した列の値のユニークな組み合わせを取得できます。たとえば、x、y、z 列のユニークな組み合わせを取得するには、次のように記述します。

a_tibble %>%
  distinct(x, y, z)

Spark への接続は spark_conn として作成済みです。Spark に格納されたトラックのメタデータに紐付けられた tibble は、track_metadata_tbl としてあらかじめ定義されています。

track_metadata_tbl の artist_name 列からユニークな値を取得しましょう。

演習

重複のない行を選択する

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習