LoslegenKostenlos loslegen

Cache in der Spark UI inspizieren

Ein DataFrame partitioned_df ist vorhanden. Daraus wird eine temporäre Tabelle namens text registriert. text wird anschließend mit spark.catalog.cacheTable('text') gecacht. Wenn du Spark lokal ausführst, ist die Spark UI unter http://localhost:4040/storage/ erreichbar. Für diese Übung sieh dir das folgende Bild an. Es zeigt, was die Spark UI anzeigt, sobald der Cache für text geladen ist:

Spark UI Storage

Das Bild zeigt, dass eine Tabelle namens text mit sieben Partitionen im Speicher gecacht ist. Was davon würde sofort dazu führen, dass die oben gezeigte Ansicht in der Spark UI erscheint?

  1. Eine Transformation auf dem zugrunde liegenden DataFrame ausführen, z. B. df = partitioned_df.distinct().

  2. Den zugrunde liegenden DataFrame zählen, z. B.: partitioned_df.count()

  3. Die Tabelle abfragen, z. B.: spark.sql("select count(*) from text")

  4. Abfragen und das Ergebnis anzeigen, z. B.: spark.sql("select count(*) from text").show()

Diese Übung ist Teil des Kurses

Einführung in Spark SQL mit Python

Kurs anzeigen

Interaktive Übung

In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.

Übung starten