Tabellen bekijken
Zodra je een SparkSession hebt gemaakt, kun je rondkijken welke data er in je cluster staat!
Je SparkSession heeft een attribuut catalog dat alle data in het cluster opsomt. Dit attribuut heeft een paar methoden om verschillende soorten informatie op te vragen.
Een van de handigste is de methode .listTables(), die de namen van alle tabellen in je cluster als een lijst teruggeeft.
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Oefeninstructies
- Kijk welke tabellen er in je cluster staan door
spark.catalog.listTables()aan te roepen en het resultaat te printen!
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the tables in the catalog
print(spark.____.____())