Coletando dados de volta do Spark

No exercício "Explorando a estrutura de tibbles", lá no Capítulo 1, você viu que tibbles não armazenam uma cópia dos dados. Em vez disso, os dados ficam no Spark, e o tibble simplesmente guarda os detalhes do que deseja recuperar do Spark.

Há muitos motivos para você querer mover seus dados do Spark para o R. Você já viu como alguns dados são movidos do Spark para o R quando você os imprime. Você também precisa coletar seu conjunto de dados se quiser fazer gráficos ou usar uma técnica de modelagem que não esteja disponível no Spark. (Afinal, o R tem a maior seleção de modelos disponível entre as linguagens de programação.)

Para coletar seus dados — isto é, movê-los do Spark para o R — você chama collect().

Este exercicio faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercicio

Uma conexão com o Spark foi criada para você como spark_conn. Um tibble vinculado aos metadados de faixas armazenados no Spark já foi definido como track_metadata_tbl.

Filtre as linhas de track_metadata_tbl em que artist_familiarity é maior que 0.9, atribuindo o resultado a results.
Imprima a classe de results, observando que ela é tbl_lazy (usada para dados remotos).
Colete seus resultados, atribuindo-os a collected.
Imprima a classe de collected, observando que ela é tbl_df (usada para dados locais).

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

results <- track_metadata_tbl %>%
  # Filter where artist familiarity is greater than 0.9
  ___

# Examine the class of the results
___

# Collect your results
collected <- results %>%
  ___

# Examine the class of the collected results
___

Editar e Executar Código