Examiner le SparkContext
Dans cet exercice, vous vous familiariserez avec l'application SparkContext
.
Vous remarquerez probablement que l'exécution du code prend plus de temps que prévu. En effet, Spark est un logiciel sérieux. Le démarrage prend plus de temps que ce à quoi vous êtes habitué. Vous pouvez également constater que l'exécution de calculs plus simples peut prendre plus de temps que prévu. C'est parce que toutes les optimisations que Spark a sous son capot sont conçues pour des opérations compliquées avec des ensembles de données volumineuses. Cela signifie que pour des problèmes simples ou de petite taille, Spark peut en fait être moins performant que d'autres solutions !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
Faites connaissance avec le site SparkContext
.
- Appelez
print()
sursc
pour vérifier qu'il existe unSparkContext
dans votre environnement. print()
sc.version
pour savoir quelle version de Spark est en cours d'exécution sur votre cluster.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Verify SparkContext
print(____)
# Print Spark version
print(____)