Visualisation des tableaux
Une fois que vous avez créé un SparkSession, vous pouvez commencer à fouiller pour voir quelles données se trouvent dans votre cluster !
Votre site SparkSession possède un attribut appelé catalog qui répertorie toutes les données contenues dans le cluster. Cet attribut dispose de plusieurs méthodes pour extraire différents éléments d'information.
L'une des plus utiles est la méthode .listTables(), qui renvoie les noms de tous les tableaux de votre cluster sous forme de liste.
Cet exercice fait partie du cours
<cours>Introduction à PySpark</cours>Instructions de l’exercice
- Voyez quels tableaux se trouvent dans votre cluster en appelant
spark.catalog.listTables()et en imprimant le résultat !
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Print the tables in the catalog
print(spark.____.____())