CommencerCommencer gratuitement

Groupes de mutants

En plus de calculer des statistiques récapitulatives par groupe, vous pouvez modifier des colonnes avec des valeurs propres à chaque groupe. Par exemple, une technique pour normaliser des valeurs consiste à soustraire la moyenne, puis à diviser par l’écart type. Vous pouvez effectuer une normalisation spécifique à chaque groupe avec le code suivant.

a_tibble %>%
  group_by(grp1, grp2) %>%
  mutate(normalized_x = (x - mean(x)) / sd(x))

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Une tibble liée aux métadonnées des morceaux stockées dans Spark a été pré-définie sous le nom track_metadata_tbl.

  • Regroupez le contenu de track_metadata par artist_name.
  • Ajoutez une nouvelle colonne nommée time_since_first_release.
    • Faites-en l’égalité avec, pour chaque groupe, year moins la première year (c’est-à-dire la min() de year) à laquelle l’artiste a sorti un morceau.
  • Triez les lignes par ordre décroissant de time_since_first_release.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

track_metadata_tbl %>%
  # Group by artist
  ___ %>%
  # Calc time since first release
  ___ %>%
  # Arrange by descending time since first release
  ___
Modifier et exécuter le code