ComeçarComece de graça

Explorando a estrutura de tibbles

Se você tentar imprimir uma tibble que descreve dados armazenados no Spark, acontece uma “mágica”, já que a tibble não guarda uma cópia dos dados. A mágica é que o método de impressão usa sua conexão com o Spark, copia parte do conteúdo de volta para o R e mostra esses valores como se os dados estivessem armazenados localmente. Como você viu no início do capítulo, copiar dados é uma operação lenta, então, por padrão, apenas 10 linhas e tantas colunas quanto couberem na tela são impressas.

Você pode alterar o número de linhas impressas usando o argumento n de print(). Também é possível mudar a largura do conteúdo exibido com o argumento width, que é especificado em número de caracteres (não de colunas). Uma dica útil é usar width = Inf para imprimir todas as colunas.

A função str() é usada normalmente para exibir a estrutura de uma variável. Para data.frames, ela fornece um bom resumo com o tipo e os primeiros valores de cada coluna. Para tibbles que têm uma fonte de dados remota, porém, str() não sabe como recuperar os dados. Isso significa que, se você chamar str() em uma tibble que contém dados armazenados no Spark, verá uma lista contendo um objeto de conexão do Spark e alguns outros detalhes.

Se você quiser ver um resumo do conteúdo de cada coluna no conjunto de dados ao qual a tibble se refere, precisa chamar glimpse(). Observe que, para dados remotos, como conjuntos de dados armazenados em um cluster Spark, o número de linhas é enganoso! Nesse caso, glimpse() não consegue informar corretamente o número de linhas.

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão com o Spark foi criada para você como spark_conn. Uma tibble vinculada aos metadados das faixas armazenados no Spark foi previamente definida como track_metadata_tbl.

  • Imprima as primeiras 5 linhas e todas as colunas dos metadados das faixas.
  • Examine a estrutura da tibble usando str().
  • Examine a estrutura dos metadados das faixas usando glimpse().

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print 5 rows, all columns
___

# Examine structure of tibble
___

# Examine structure of data
___
Editar e executar o código