Explorar los tipos de datos de Spark

Ya has visto (en el Capítulo 1) src_tbls() para listar los DataFrames en Spark que sparklyr puede ver. También has visto glimpse() para explorar las columnas de un tibble en R.

sparklyr tiene una función llamada sdf_schema() para explorar las columnas de un tibble en R. Es fácil de llamar; y un poco incómoda de manejar por el valor de retorno.

sdf_schema(a_tibble)

El valor de retorno es una lista, y cada elemento es una lista con dos elementos que contienen el nombre y el tipo de datos de cada columna. El ejercicio muestra una transformación de datos para ver los tipos más fácilmente.

Aquí tienes una comparación de cómo los tipos de datos de R se corresponden con los tipos de datos de Spark. Otros tipos de datos no están actualmente soportados por sparklyr.

R type	Spark type
logical	BooleanType
numeric	DoubleType
integer	IntegerType
character	StringType
list	ArrayType

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya se ha creado una conexión a Spark como spark_conn. Se ha predefinido un tibble vinculado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.

Llama a sdf_schema() para obtener el esquema de los metadatos de las pistas.
Ejecuta el código de transformación sobre schema para verlo en un formato de tibble más legible.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Get the schema
(schema <- ___(___))

# Transform the schema
schema %>%
  lapply(function(x) do.call(data_frame, x)) %>%
  bind_rows()

Editar y ejecutar código