CommencerCommencer gratuitement

Explorer la structure des tibbles

Si vous essayez d’afficher un tibble qui décrit des données stockées dans Spark, un peu de magie est nécessaire, car le tibble ne conserve pas lui‑même une copie des données. La magie, c’est que la méthode d’affichage utilise votre connexion Spark, rapatrie une partie du contenu vers R et affiche ces valeurs comme si les données étaient stockées localement. Comme vous l’avez vu plus tôt dans le chapitre, copier des données est une opération lente ; par défaut, seules 10 lignes et autant de colonnes que l’écran peut contenir sont affichées.

Vous pouvez modifier le nombre de lignes affichées via l’argument n de print(). Vous pouvez aussi modifier la largeur de contenu à afficher avec l’argument width, exprimé en nombre de caractères (et non en nombre de colonnes). Une astuce utile consiste à utiliser width = Inf pour afficher toutes les colonnes.

La fonction str() est généralement utilisée pour afficher la structure d’une variable. Pour les data.frame, elle fournit un bon résumé avec le type et les premières valeurs de chaque colonne. En revanche, pour les tibbles dont la source de données est distante, str() ne sait pas comment récupérer les données. Cela signifie que si vous appelez str() sur un tibble contenant des données stockées dans Spark, vous voyez une liste contenant un objet de connexion Spark, ainsi que quelques autres éléments.

Si vous souhaitez voir un résumé du contenu de chaque colonne du jeu de données auquel le tibble fait référence, vous devez appeler glimpse() à la place. Notez que, pour des données distantes comme celles stockées dans un cluster Spark, le nombre de lignes est trompeur ! Dans ce cas, glimpse() n’arrive pas à indiquer correctement le nombre de lignes.

Cet exercice fait partie du cours

Introduction à Spark avec sparklyr en R

Afficher le cours

Instructions

Une connexion Spark a été créée pour vous sous le nom spark_conn. Un tibble lié aux métadonnées des pistes stockées dans Spark a été pré‑défini sous le nom track_metadata_tbl.

  • Affichez les 5 premières lignes et toutes les colonnes des métadonnées des pistes.
  • Examinez la structure du tibble avec str().
  • Examinez la structure des métadonnées des pistes avec glimpse().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print 5 rows, all columns
___

# Examine structure of tibble
___

# Examine structure of data
___
Modifier et exécuter le code