ComenzarEmpieza gratis

Explorar la estructura de los tibbles

Si intentas imprimir un tibble que describe datos almacenados en Spark, tiene que ocurrir cierta “magia”, porque el tibble no guarda una copia de los datos. La magia es que el método de impresión usa tu conexión de Spark, copia parte del contenido de vuelta a R y muestra esos valores como si los datos estuvieran almacenados localmente. Como viste antes en el capítulo, copiar datos es una operación lenta, así que, de forma predeterminada, solo se imprimen 10 filas y tantas columnas como quepan en pantalla.

Puedes cambiar el número de filas que se imprimen usando el argumento n de print(). También puedes cambiar el ancho del contenido a mostrar con el argumento width, que se especifica en número de caracteres (no en número de columnas). Un truco útil es usar width = Inf para imprimir todas las columnas.

La función str() se utiliza normalmente para mostrar la estructura de una variable. Para data.frames, ofrece un buen resumen con el tipo y los primeros valores de cada columna. Sin embargo, para tibbles con una fuente de datos remota, str() no sabe cómo recuperar los datos. Eso significa que, si llamas a str() sobre un tibble que contiene datos almacenados en Spark, verás una lista que incluye un objeto de conexión de Spark y algunos otros elementos.

Si quieres ver un resumen de lo que contiene cada columna del conjunto de datos al que se refiere el tibble, debes llamar a glimpse(). Ten en cuenta que, para datos remotos como los almacenados en un clúster de Spark, ¡el número de filas es engañoso! En este caso, glimpse() no informa correctamente del número de filas.

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Se ha creado una conexión a Spark llamada spark_conn. Se ha predefinido un tibble vinculado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.

  • Imprime las primeras 5 filas y todas las columnas de los metadatos de las pistas.
  • Examina la estructura del tibble usando str().
  • Examina la estructura de los metadatos de las pistas usando glimpse().

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Print 5 rows, all columns
___

# Examine structure of tibble
___

# Examine structure of data
___
Editar y ejecutar código