CommencerCommencez gratuitement

Lire les configurations de Spark

Vous avez récemment configuré un cluster via un fournisseur cloud. Votre seul accès se fait via le terminal ou votre code Python. Vous souhaitez vérifier certains paramètres Spark pour valider la configuration du cluster.

L’objet spark est disponible.

Cet exercice fait partie du cours

<cours>Nettoyer des données avec PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Vérifiez le nom de l’instance d’application Spark (« spark.app.name »).
  • Déterminez le port TCP sur lequel s’exécute le driver (« spark.driver.port »).
  • Déterminez combien de partitions sont configurées pour les jointures.
  • Affichez les résultats.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Name of the Spark application instance
app_name = spark.____.get(____)

# Driver TCP port
driver_tcp_port = ____

# Number of join partitions
num_partitions = ____('spark.sql.shuffle.____')

# Show the results
print("Name: %s" % ____)
print("Driver TCP port: %s" % ____)
print("Number of partitions: %s" % ____)
Modifier et exécuter le code