ComenzarEmpieza gratis

Explorar los tipos de datos de Spark

Ya has visto (en el Capítulo 1) src_tbls() para listar los DataFrames en Spark que sparklyr puede ver. También has visto glimpse() para explorar las columnas de un tibble en R.

sparklyr tiene una función llamada sdf_schema() para explorar las columnas de un tibble en R. Es fácil de llamar; y un poco incómoda de manejar por el valor de retorno.

sdf_schema(a_tibble)

El valor de retorno es una lista, y cada elemento es una lista con dos elementos que contienen el nombre y el tipo de datos de cada columna. El ejercicio muestra una transformación de datos para ver los tipos más fácilmente.

Aquí tienes una comparación de cómo los tipos de datos de R se corresponden con los tipos de datos de Spark. Otros tipos de datos no están actualmente soportados por sparklyr.

R type Spark type
logical BooleanType
numeric DoubleType
integer IntegerType
character StringType
list ArrayType

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya se ha creado una conexión a Spark como spark_conn. Se ha predefinido un tibble vinculado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.

  • Llama a sdf_schema() para obtener el esquema de los metadatos de las pistas.
  • Ejecuta el código de transformación sobre schema para verlo en un formato de tibble más legible.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Get the schema
(schema <- ___(___))

# Transform the schema
schema %>%
  lapply(function(x) do.call(data_frame, x)) %>%
  bind_rows()
Editar y ejecutar código