CommencerCommencer gratuitement

Récapituler des colonnes

La fonction mutate() que vous avez vue dans l’exercice précédent prend des colonnes en entrée et renvoie une colonne. Si vous calculez des statistiques descriptives comme la moyenne, le maximum ou l’écart type, vous souhaitez généralement prendre des colonnes en entrée mais renvoyer une seule valeur. Cela se fait avec la fonction summarize().

a_tibble %>%
  summarize(
    mean_x       = mean(x),
    sd_x_times_y = sd(x * y)
  )

Notez que dplyr suit une philosophie (reprise par sparklyr) consistant à conserver les données dans des tibbles. La valeur de retour est donc un tibble avec une seule ligne et une colonne par statistique calculée.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des morceaux stockées dans Spark a été pré-défini sous le nom track_metadata_tbl.

  • Sélectionnez les champs title et duration.
  • Faites passer le résultat dans un pipe pour créer un nouveau champ, duration_minutes, qui contient la durée du morceau en minutes.
  • Faites passer le résultat dans summarize() pour calculer la durée moyenne en minutes, dans un champ nommé mean_duration_minutes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___ %>%
  # Mutate columns
  ___ %>%
  # Summarize columns
  ___
Modifier et exécuter le code