Explorer les types de données Spark

Vous avez déjà vu (au chapitre 1) src_tbls() pour lister les DataFrames sur Spark visibles par sparklyr. Vous avez aussi utilisé glimpse() pour explorer les colonnes d’un tibble côté R.

sparklyr propose une fonction appelée sdf_schema() pour explorer les colonnes d’un tibble côté R. Elle est simple à appeler, mais la valeur de retour est un peu fastidieuse à manipuler.

sdf_schema(a_tibble)

La valeur de retour est une liste, et chaque élément est une liste à deux éléments contenant le nom et le type de données de chaque colonne. Cet exercice fournit une transformation pour afficher plus facilement les types de données.

Voici une comparaison entre les types de données R et les types de données Spark. D’autres types ne sont pas encore pris en charge par sparklyr.

R type	Spark type
logical	BooleanType
numeric	DoubleType
integer	IntegerType
character	StringType
list	ArrayType

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble relié aux métadonnées des morceaux stockées dans Spark a été pré-défini sous le nom track_metadata_tbl.

Appelez sdf_schema() pour récupérer le schéma des métadonnées des morceaux.
Exécutez le code de transformation sur schema pour l’afficher sous forme de tibble plus lisible.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Get the schema
(schema <- ___(___))

# Transform the schema
schema %>%
  lapply(function(x) do.call(data_frame, x)) %>%
  bind_rows()

Modifier et exécuter le code