Recolectar datos de vuelta desde Spark
En el ejercicio «Exploring the structure of tibbles», en el Capítulo 1, viste que los tibbles no almacenan una copia de los datos. En su lugar, los datos permanecen en Spark y el tibble simplemente guarda los detalles de lo que le gustaría recuperar de Spark.
Hay muchas razones por las que podrías querer mover tus datos de Spark a R. Ya has visto cómo parte de los datos se trasladan de Spark a R cuando los imprimes. También necesitas recolectar tu conjunto de datos si quieres graficarlo o si quieres usar una técnica de modelado que no esté disponible en Spark. (Al fin y al cabo, R tiene la selección más amplia de modelos disponibles de cualquier lenguaje de programación).
Para recolectar tus datos, es decir, para moverlos de Spark a R, llama a collect().
Este ejercicio forma parte del curso
Introducción a Spark con sparklyr en R
Instrucciones del ejercicio
Ya se ha creado una conexión a Spark como spark_conn. Se ha predefinido un tibble asociado a los metadatos de pistas almacenados en Spark como track_metadata_tbl.
- Filtra las filas de
track_metadata_tbldondeartist_familiaritysea mayor que 0.9, asignando los resultados aresults. - Imprime la clase de
results, fijándote en que es untbl_lazy(se usa para datos remotos). - Recolecta tus resultados, asignándolos a
collected. - Imprime la clase de
collected, fijándote en que es untbl_df(se usa para datos locales).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
results <- track_metadata_tbl %>%
# Filter where artist familiarity is greater than 0.9
___
# Examine the class of the results
___
# Collect your results
collected <- results %>%
___
# Examine the class of the collected results
___