Sélectionner des lignes uniques

Si vous avez une variable catégorielle stockée dans un facteur, il est souvent utile de connaître les différentes catégories ; pour cela, utilisez la fonction levels(). Pour un tibble, l’idée plus générale est de trouver les lignes contenant des données uniques. En reprenant la terminologie SQL, cela se fait avec la fonction distinct(). Vous pouvez l’appliquer directement à votre jeu de données pour obtenir les combinaisons uniques d’un ensemble donné de colonnes. Par exemple, pour trouver les combinaisons uniques de valeurs dans les colonnes x, y et z, vous écririez :

a_tibble %>%
  distinct(x, y, z)

Cet exercice fait partie du cours

<cours>Introduction à Spark avec sparklyr en R</cours>

Voir le cours

Instructions de l’exercice

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des morceaux stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.

Trouvez les valeurs distinctes de la colonne artist_name à partir de track_metadata_tbl.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___

Modifier et exécuter le code