Récapituler des colonnes
La fonction mutate() que vous avez vue dans l’exercice précédent prend des colonnes en entrée et renvoie une colonne. Si vous calculez des statistiques descriptives comme la moyenne, le maximum ou l’écart type, vous souhaitez généralement prendre des colonnes en entrée mais renvoyer une seule valeur. Cela se fait avec la fonction summarize().
a_tibble %>%
summarize(
mean_x = mean(x),
sd_x_times_y = sd(x * y)
)
Notez que dplyr suit une philosophie (reprise par sparklyr) consistant à conserver les données dans des tibbles. La valeur de retour est donc un tibble avec une seule ligne et une colonne par statistique calculée.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des morceaux stockées dans Spark a été pré-défini sous le nom track_metadata_tbl.
- Sélectionnez les champs
titleetduration. - Faites passer le résultat dans un pipe pour créer un nouveau champ,
duration_minutes, qui contient la durée du morceau en minutes. - Faites passer le résultat dans
summarize()pour calculer la durée moyenne en minutes, dans un champ nommémean_duration_minutes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___ %>%
# Summarize columns
___