Rapatrier les données depuis Spark

Dans l’exercice « Exploring the structure of tibbles » du chapitre 1, vous avez vu que les tibbles ne stockent pas une copie des données. Les données restent dans Spark, et le tibble conserve simplement les détails de ce qu’il souhaite récupérer depuis Spark.

Il existe de nombreuses raisons de déplacer vos données de Spark vers R. Vous avez déjà vu qu’une partie des données est transférée de Spark vers R lorsque vous les affichez. Vous devez aussi collecter votre jeu de données si vous voulez le visualiser, ou utiliser une technique de modélisation qui n’est pas disponible dans Spark. (Après tout, R propose la plus large sélection de modèles parmi tous les langages de programmation.)

Pour collecter vos données — c’est‑à‑dire les déplacer de Spark vers R — appelez collect().

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble relié aux métadonnées des morceaux stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.

Filtrez les lignes de track_metadata_tbl où artist_familiarity est supérieur à 0.9, et affectez le résultat à results.
Affichez la classe de results, en notant qu’il s’agit d’un tbl_lazy (utilisé pour les données distantes).
Collectez vos résultats et affectez-les à collected.
Affichez la classe de collected, en notant qu’il s’agit d’un tbl_df (utilisé pour les données locales).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# track_metadata_tbl has been pre-defined
track_metadata_tbl

results <- track_metadata_tbl %>%
  # Filter where artist familiarity is greater than 0.9
  ___

# Examine the class of the results
___

# Collect your results
collected <- results %>%
  ___

# Examine the class of the collected results
___

Modifier et exécuter le code