Explorar los tipos de datos de Spark
Ya has visto (en el Capítulo 1) src_tbls() para listar los DataFrames en Spark que sparklyr puede ver. También has visto glimpse() para explorar las columnas de un tibble en R.
sparklyr tiene una función llamada sdf_schema() para explorar las columnas de un tibble en R. Es fácil de llamar; y un poco incómoda de manejar por el valor de retorno.
sdf_schema(a_tibble)
El valor de retorno es una lista, y cada elemento es una lista con dos elementos que contienen el nombre y el tipo de datos de cada columna. El ejercicio muestra una transformación de datos para ver los tipos más fácilmente.
Aquí tienes una comparación de cómo los tipos de datos de R se corresponden con los tipos de datos de Spark. Otros tipos de datos no están actualmente soportados por sparklyr.
| R type | Spark type |
|---|---|
| logical | BooleanType |
| numeric | DoubleType |
| integer | IntegerType |
| character | StringType |
| list | ArrayType |
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Ya se ha creado una conexión a Spark como spark_conn. Se ha predefinido un tibble vinculado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.
- Llama a
sdf_schema()para obtener el esquema de los metadatos de las pistas. - Ejecuta el código de transformación sobre
schemapara verlo en un formato de tibble más legible.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
# Get the schema
(schema <- ___(___))
# Transform the schema
schema %>%
lapply(function(x) do.call(data_frame, x)) %>%
bind_rows()