Recolectar datos de vuelta desde Spark

En el ejercicio «Exploring the structure of tibbles», en el Capítulo 1, viste que los tibbles no almacenan una copia de los datos. En su lugar, los datos permanecen en Spark y el tibble simplemente guarda los detalles de lo que le gustaría recuperar de Spark.

Hay muchas razones por las que podrías querer mover tus datos de Spark a R. Ya has visto cómo parte de los datos se trasladan de Spark a R cuando los imprimes. También necesitas recolectar tu conjunto de datos si quieres graficarlo o si quieres usar una técnica de modelado que no esté disponible en Spark. (Al fin y al cabo, R tiene la selección más amplia de modelos disponibles de cualquier lenguaje de programación).

Para recolectar tus datos, es decir, para moverlos de Spark a R, llama a collect().

Este ejercicio forma parte del curso

Introducción a Spark con sparklyr en R

Ver curso

Instrucciones del ejercicio

Ya se ha creado una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.

Filtra las filas de track_metadata_tbl donde artist_familiarity sea mayor que 0.9, asignando los resultados a results.
Imprime la clase de results, fijándote en que es un tbl_lazy (se usa para datos remotos).
Recolecta tus resultados, asignándolos a collected.
Imprime la clase de collected, fijándote en que es un tbl_df (se usa para datos locales).

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

results <- track_metadata_tbl %>%
  # Filter where artist familiarity is greater than 0.9
  ___

# Examine the class of the results
___

# Collect your results
collected <- results %>%
  ___

# Examine the class of the collected results
___

Editar y ejecutar código