ComeçarComece de graça

Explorando tipos de dados do Spark

Você já viu (lá no Capítulo 1) src_tbls() para listar os DataFrames no Spark que o sparklyr consegue enxergar. Você também conheceu glimpse() para explorar as colunas de um tibble no R.

O sparklyr tem uma função chamada sdf_schema() para explorar as colunas de um tibble no R. É fácil de chamar; lidar com o valor de retorno é que pode ser um pouco trabalhoso.

sdf_schema(a_tibble)

O valor de retorno é uma lista, e cada elemento é uma lista com dois elementos, contendo o nome e o tipo de dados de cada coluna. O exercício mostra uma transformação para visualizar os tipos de dados de forma mais amigável.

Aqui está uma comparação de como os tipos de dados do R se mapeiam para os tipos de dados do Spark. Outros tipos de dados não são atualmente compatíveis com o sparklyr.

R type Spark type
logical BooleanType
numeric DoubleType
integer IntegerType
character StringType
list ArrayType

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão com o Spark foi criada para você como spark_conn. Um tibble ligado aos metadados de faixas armazenados no Spark foi pré-definido como track_metadata_tbl.

  • Chame sdf_schema() para obter o schema dos metadados das faixas.
  • Execute o código de transformação em schema para vê-lo em um formato de tibble mais legível.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

# Get the schema
(schema <- ___(___))

# Transform the schema
schema %>%
  lapply(function(x) do.call(data_frame, x)) %>%
  bind_rows()
Editar e executar o código