Modifier des colonnes
Cela peut vous surprendre, mais tous les jeux de données ne sont pas parfaitement propres au départ ! Il faut souvent corriger des valeurs ou créer de nouvelles colonnes à partir des données existantes. Ce processus de modification ou d'ajout de colonnes s'appelle une mutation dans la terminologie de dplyr, et il s'effectue avec mutate(). Cette fonction prend un tibble et des arguments nommés pour mettre à jour les colonnes. Le nom de chaque argument correspond au nom de la colonne à modifier ou à ajouter, et la valeur est une expression qui explique comment la mettre à jour. Par exemple, pour un tibble avec les colonnes x et y, le code suivant mettrait à jour x et créerait une nouvelle colonne z.
a_tibble %>%
mutate(
x = x + y,
z = log(x)
)
Au cas où le message ne serait pas encore clair que les fonctions de base R ne fonctionnent pas avec les tibbles Spark, vous ne pouvez pas utiliser within() ni transform() à cette fin.
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble associé aux métadonnées des pistes stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.
- Sélectionnez les champs
titleetduration. Notez que les durées sont en secondes. - Faites passer ce résultat dans
mutate()pour créer un nouveau champduration_minutesqui contient la durée des pistes en minutes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Manipulate the track metadata
track_metadata_tbl %>%
# Select columns
___ %>%
# Mutate columns
___