Explorer les types de données Spark
Vous avez déjà vu (au chapitre 1) src_tbls() pour lister les DataFrames sur Spark visibles par sparklyr. Vous avez aussi utilisé glimpse() pour explorer les colonnes d’un tibble côté R.
sparklyr propose une fonction appelée sdf_schema() pour explorer les colonnes d’un tibble côté R. Elle est simple à appeler, mais la valeur de retour est un peu fastidieuse à manipuler.
sdf_schema(a_tibble)
La valeur de retour est une liste, et chaque élément est une liste à deux éléments contenant le nom et le type de données de chaque colonne. Cet exercice fournit une transformation pour afficher plus facilement les types de données.
Voici une comparaison entre les types de données R et les types de données Spark. D’autres types ne sont pas encore pris en charge par sparklyr.
| R type | Spark type |
|---|---|
| logical | BooleanType |
| numeric | DoubleType |
| integer | IntegerType |
| character | StringType |
| list | ArrayType |
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble relié aux métadonnées des morceaux stockées dans Spark a été pré-défini sous le nom track_metadata_tbl.
- Appelez
sdf_schema()pour récupérer le schéma des métadonnées des morceaux. - Exécutez le code de transformation sur
schemapour l’afficher sous forme de tibble plus lisible.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Get the schema
(schema <- ___(___))
# Transform the schema
schema %>%
lapply(function(x) do.call(data_frame, x)) %>%
bind_rows()