Coletando dados de volta do Spark
No exercício "Explorando a estrutura de tibbles", lá no Capítulo 1, você viu que tibbles não armazenam uma cópia dos dados. Em vez disso, os dados ficam no Spark, e o tibble simplesmente guarda os detalhes do que deseja recuperar do Spark.
Há muitos motivos para você querer mover seus dados do Spark para o R. Você já viu como alguns dados são movidos do Spark para o R quando você os imprime. Você também precisa coletar seu conjunto de dados se quiser fazer gráficos ou usar uma técnica de modelagem que não esteja disponível no Spark. (Afinal, o R tem a maior seleção de modelos disponível entre as linguagens de programação.)
Para coletar seus dados — isto é, movê-los do Spark para o R — você chama collect().
Este exercício faz parte do curso
Introdução ao Spark com sparklyr em R
Instruções do exercício
Uma conexão com o Spark foi criada para você como spark_conn. Um tibble vinculado aos metadados de faixas armazenados no Spark já foi definido como track_metadata_tbl.
- Filtre as linhas de
track_metadata_tblem queartist_familiarityé maior que 0.9, atribuindo o resultado aresults. - Imprima a classe de
results, observando que ela étbl_lazy(usada para dados remotos). - Colete seus resultados, atribuindo-os a
collected. - Imprima a classe de
collected, observando que ela étbl_df(usada para dados locais).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
results <- track_metadata_tbl %>%
# Filter where artist familiarity is greater than 0.9
___
# Examine the class of the results
___
# Collect your results
collected <- results %>%
___
# Examine the class of the collected results
___