Lire les configurations de Spark
Vous avez récemment configuré un cluster via un fournisseur cloud. Votre seul accès se fait via le terminal ou votre code Python. Vous souhaitez vérifier certains paramètres Spark pour valider la configuration du cluster.
L’objet spark est disponible.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Vérifiez le nom de l’instance d’application Spark (« spark.app.name »).
- Déterminez le port TCP sur lequel s’exécute le driver (« spark.driver.port »).
- Déterminez combien de partitions sont configurées pour les jointures.
- Affichez les résultats.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Name of the Spark application instance
app_name = spark.____.get(____)
# Driver TCP port
driver_tcp_port = ____
# Number of join partitions
num_partitions = ____('spark.sql.shuffle.____')
# Show the results
print("Name: %s" % ____)
print("Driver TCP port: %s" % ____)
print("Number of partitions: %s" % ____)