Groupes de mutants

En plus de calculer des statistiques récapitulatives par groupe, vous pouvez modifier des colonnes avec des valeurs propres à chaque groupe. Par exemple, une technique pour normaliser des valeurs consiste à soustraire la moyenne, puis à diviser par l’écart type. Vous pouvez effectuer une normalisation spécifique à chaque groupe avec le code suivant.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Cet exercice fait partie du cours

<cours>Introduction à Spark avec sparklyr en R</cours>

Voir le cours

Instructions de l’exercice

Une connexion Spark a été créée pour vous sous le nom spark_conn. Une tibble liée aux métadonnées des morceaux stockées dans Spark a été pré-définie sous le nom track_metadata_tbl.

Regroupez le contenu de track_metadata par artist_name.
Ajoutez une nouvelle colonne nommée time_since_first_release.
- Faites-en l’égalité avec, pour chaque groupe, year moins la première year (c’est-à-dire la min() de year) à laquelle l’artiste a sorti un morceau.
Triez les lignes par ordre décroissant de time_since_first_release.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Group by artist
  ___ %>%
  # Calc time since first release
  ___ %>%
  # Arrange by descending time since first release
  ___

Modifier et exécuter le code