Rapatrier les données depuis Spark
Dans l’exercice « Exploring the structure of tibbles » du chapitre 1, vous avez vu que les tibbles ne stockent pas une copie des données. Les données restent dans Spark, et le tibble conserve simplement les détails de ce qu’il souhaite récupérer depuis Spark.
Il existe de nombreuses raisons de déplacer vos données de Spark vers R. Vous avez déjà vu qu’une partie des données est transférée de Spark vers R lorsque vous les affichez. Vous devez aussi collecter votre jeu de données si vous voulez le visualiser, ou utiliser une technique de modélisation qui n’est pas disponible dans Spark. (Après tout, R propose la plus large sélection de modèles parmi tous les langages de programmation.)
Pour collecter vos données — c’est‑à‑dire les déplacer de Spark vers R — appelez collect().
Cet exercice fait partie du cours
Introduction à Spark avec sparklyr en R
Instructions
Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble relié aux métadonnées des morceaux stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.
- Filtrez les lignes de
track_metadata_tbloùartist_familiarityest supérieur à 0.9, et affectez le résultat àresults. - Affichez la classe de
results, en notant qu’il s’agit d’untbl_lazy(utilisé pour les données distantes). - Collectez vos résultats et affectez-les à
collected. - Affichez la classe de
collected, en notant qu’il s’agit d’untbl_df(utilisé pour les données locales).
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# track_metadata_tbl has been pre-defined
track_metadata_tbl
results <- track_metadata_tbl %>%
# Filter where artist familiarity is greater than 0.9
___
# Examine the class of the results
___
# Collect your results
collected <- results %>%
___
# Examine the class of the collected results
___