CommencerCommencer gratuitement

Sélectionner des lignes uniques

Si vous avez une variable catégorielle stockée dans un facteur, il est souvent utile de connaître les différentes catégories ; pour cela, utilisez la fonction levels(). Pour un tibble, l’idée plus générale est de trouver les lignes contenant des données uniques. En reprenant la terminologie SQL, cela se fait avec la fonction distinct(). Vous pouvez l’appliquer directement à votre jeu de données pour obtenir les combinaisons uniques d’un ensemble donné de colonnes. Par exemple, pour trouver les combinaisons uniques de valeurs dans les colonnes x, y et z, vous écririez :

a_tibble %>%
  distinct(x, y, z)

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des morceaux stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.

  • Trouvez les valeurs distinctes de la colonne artist_name à partir de track_metadata_tbl.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Only return rows with distinct artist_name
  ___
Modifier et exécuter le code