Spark-configuraties uitlezen
Je hebt onlangs een cluster geconfigureerd via een cloudprovider. Je enige toegang is via de commandoshell of je Python-code. Je wilt een paar Spark-instellingen controleren om de configuratie van het cluster te valideren.
Het spark-object is beschikbaar om te gebruiken.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Controleer de naam van de Spark-applicatie-instantie ('spark.app.name').
- Bepaal op welke TCP-poort de driver draait ('spark.driver.port').
- Bepaal hoeveel partities zijn geconfigureerd voor joins.
- Toon de resultaten.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Name of the Spark application instance
app_name = spark.____.get(____)
# Driver TCP port
driver_tcp_port = ____
# Number of join partitions
num_partitions = ____('spark.sql.shuffle.____')
# Show the results
print("Name: %s" % ____)
print("Driver TCP port: %s" % ____)
print("Number of partitions: %s" % ____)