Visualisation des tableaux
Une fois que vous avez créé un SparkSession
, vous pouvez commencer à fouiller pour voir quelles données se trouvent dans votre cluster !
Votre site SparkSession
possède un attribut appelé catalog
qui répertorie toutes les données contenues dans le cluster. Cet attribut dispose de plusieurs méthodes pour extraire différents éléments d'information.
L'une des plus utiles est la méthode .listTables()
, qui renvoie les noms de tous les tableaux de votre cluster sous forme de liste.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Voyez quels tableaux se trouvent dans votre cluster en appelant
spark.catalog.listTables()
et en imprimant le résultat !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the tables in the catalog
print(spark.____.____())