Sélectionner des colonnes

La façon la plus simple de manipuler des data frames stockés dans Spark consiste à utiliser la syntaxe de dplyr. La manipulation de data frames avec la syntaxe dplyr est expliquée en détail dans les cours Data Manipulation with dplyr et Joining Data with dplyr, mais vous passerez le prochain chapitre et demi à couvrir tous les points essentiels.

dplyr propose cinq actions principales à effectuer sur un data frame. Vous pouvez sélectionner des colonnes, filtrer des lignes, organiser l’ordre des lignes, modifier des colonnes ou en ajouter de nouvelles, et calculer des statistiques récapitulatives.

Commençons par la sélection de colonnes. Cela se fait en appelant select() sur une tibble, suivi des noms non entre guillemets des colonnes à conserver. Les fonctions dplyr sont généralement utilisées avec l’opérateur pipe de magrittr, %>%. Pour sélectionner les colonnes x, y et z, vous écririez :

a_tibble %>%
  select(x, y, z)

Notez que l’indexation avec des crochets n’est pas actuellement prise en charge dans sparklyr. Vous ne pouvez donc pas faire :

a_tibble[, c("x", "y", "z")]

Cet exercice fait partie du cours

<cours>Introduction à Spark avec sparklyr en R</cours>

Voir le cours

Instructions de l’exercice

Une connexion Spark a été créée pour vous sous le nom spark_conn. Une tibble liée aux métadonnées des morceaux stockées dans Spark a été pré-définie sous le nom track_metadata_tbl.

Sélectionnez artist_name, release, title et year à l’aide de select().
Essayez de faire la même chose avec l’indexation par crochets. Attention ! Ce code génère une erreur, il est donc encapsulé dans un appel à tryCatch().

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Manipulate the track metadata
track_metadata_tbl %>%
  # Select columns
  ___

# Try to select columns using [ ]
tryCatch({
    # Selection code here
    ___
  },
  error = print
)

Modifier et exécuter le code