Aan de slagGa gratis aan de slag

Cache inspecteren in de Spark UI

Er is een dataframe partitioned_df beschikbaar. Dit wordt gebruikt om een tijdelijke tabel text te registreren. text wordt vervolgens gecachet met spark.catalog.cacheTable('text'). Als je Spark lokaal zou draaien, is de Spark UI beschikbaar op http://localhost:4040/storage/. Bekijk voor deze oefening de volgende afbeelding. Deze laat zien wat de Spark UI toont zodra de cache voor text is geladen:

Spark UI Storage

Hieruit blijkt dat een tabel text met zeven partities in het geheugen is gecachet. Welke van de volgende opties zorgt er direct voor dat het bovenstaande in de Spark UI verschijnt?

  1. Een transformatie uitvoeren op het onderliggende dataframe, bijvoorbeeld df = partitioned_df.distinct().

  2. Het onderliggende dataframe tellen, bijvoorbeeld: partitioned_df.count()

  3. De tabel query’en met bijvoorbeeld: spark.sql("select count(*) from text")

  4. De query uitvoeren en het resultaat tonen, bijvoorbeeld: spark.sql("select count(*) from text").show()

Deze oefening maakt deel uit van de cursus

Introductie tot Spark SQL in Python

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen