ComeçarComece de graça

Coletando dados de volta do Spark

No exercício "Explorando a estrutura de tibbles", lá no Capítulo 1, você viu que tibbles não armazenam uma cópia dos dados. Em vez disso, os dados ficam no Spark, e o tibble simplesmente guarda os detalhes do que deseja recuperar do Spark.

Há muitos motivos para você querer mover seus dados do Spark para o R. Você já viu como alguns dados são movidos do Spark para o R quando você os imprime. Você também precisa coletar seu conjunto de dados se quiser fazer gráficos ou usar uma técnica de modelagem que não esteja disponível no Spark. (Afinal, o R tem a maior seleção de modelos disponível entre as linguagens de programação.)

Para coletar seus dados — isto é, movê-los do Spark para o R — você chama collect().

Este exercício faz parte do curso

Introdução ao Spark com sparklyr em R

Ver curso

Instruções do exercício

Uma conexão com o Spark foi criada para você como spark_conn. Um tibble vinculado aos metadados de faixas armazenados no Spark já foi definido como track_metadata_tbl.

  • Filtre as linhas de track_metadata_tbl em que artist_familiarity é maior que 0.9, atribuindo o resultado a results.
  • Imprima a classe de results, observando que ela é tbl_lazy (usada para dados remotos).
  • Colete seus resultados, atribuindo-os a collected.
  • Imprima a classe de collected, observando que ela é tbl_df (usada para dados locais).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

results <- track_metadata_tbl %>%
  # Filter where artist familiarity is greater than 0.9
  ___

# Examine the class of the results
___

# Collect your results
collected <- results %>%
  ___

# Examine the class of the collected results
___
Editar e executar o código