Groupes de mutants
En plus de calculer des statistiques récapitulatives par groupe, vous pouvez modifier des colonnes avec des valeurs propres à chaque groupe. Par exemple, une technique pour normaliser des valeurs consiste à soustraire la moyenne, puis à diviser par l’écart type. Vous pouvez effectuer une normalisation spécifique à chaque groupe avec le code suivant.
a_tibble %>%
group_by(grp1, grp2) %>%
mutate(normalized_x = (x - mean(x)) / sd(x))
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Une tibble liée aux métadonnées des morceaux stockées dans Spark a été pré-définie sous le nom track_metadata_tbl.
- Regroupez le contenu de
track_metadataparartist_name. - Ajoutez une nouvelle colonne nommée
time_since_first_release.- Faites-en l’égalité avec, pour chaque groupe,
yearmoins la premièreyear(c’est-à-dire lamin()deyear) à laquelle l’artiste a sorti un morceau.
- Faites-en l’égalité avec, pour chaque groupe,
- Triez les lignes par ordre décroissant de
time_since_first_release.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
track_metadata_tbl %>%
# Group by artist
___ %>%
# Calc time since first release
___ %>%
# Arrange by descending time since first release
___