Sélectionner des lignes uniques
Si vous avez une variable catégorielle stockée dans un facteur, il est souvent utile de connaître les différentes catégories ; pour cela, utilisez la fonction levels(). Pour un tibble, l’idée plus générale est de trouver les lignes contenant des données uniques. En reprenant la terminologie SQL, cela se fait avec la fonction distinct(). Vous pouvez l’appliquer directement à votre jeu de données pour obtenir les combinaisons uniques d’un ensemble donné de colonnes. Par exemple, pour trouver les combinaisons uniques de valeurs dans les colonnes x, y et z, vous écririez :
a_tibble %>%
distinct(x, y, z)
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des morceaux stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.
- Trouvez les valeurs distinctes de la colonne
artist_nameà partir detrack_metadata_tbl.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Only return rows with distinct artist_name
___