Spark-Konfigurationen auslesen
Du hast vor Kurzem einen Cluster über einen Cloud-Anbieter konfiguriert. Dein Zugriff erfolgt nur über die Kommandozeile oder deinen Python-Code. Du möchtest einige Spark-Einstellungen prüfen, um die Konfiguration des Clusters zu validieren.
Das Objekt spark steht dir zur Verfügung.
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Anleitung zur Übung
- Prüfe den Namen der Spark-Anwendungsinstanz („spark.app.name“).
- Bestimme den TCP-Port, auf dem der Driver läuft („spark.driver.port“).
- Ermittle, wie viele Partitionen für Joins konfiguriert sind.
- Zeige die Ergebnisse an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Name of the Spark application instance
app_name = spark.____.get(____)
# Driver TCP port
driver_tcp_port = ____
# Number of join partitions
num_partitions = ____('spark.sql.shuffle.____')
# Show the results
print("Name: %s" % ____)
print("Driver TCP port: %s" % ____)
print("Number of partitions: %s" % ____)