CommencerCommencer gratuitement

Examiner le SparkContext

Dans cet exercice, vous vous familiariserez avec l'application SparkContext.

Vous remarquerez probablement que l'exécution du code prend plus de temps que prévu. En effet, Spark est un logiciel sérieux. Le démarrage prend plus de temps que ce à quoi vous êtes habitué. Vous pouvez également constater que l'exécution de calculs plus simples peut prendre plus de temps que prévu. C'est parce que toutes les optimisations que Spark a sous son capot sont conçues pour des opérations compliquées avec des ensembles de données volumineuses. Cela signifie que pour des problèmes simples ou de petite taille, Spark peut en fait être moins performant que d'autres solutions !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

Faites connaissance avec le site SparkContext.

  • Appelez print() sur sc pour vérifier qu'il existe un SparkContext dans votre environnement.
  • print() sc.version pour savoir quelle version de Spark est en cours d'exécution sur votre cluster.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Verify SparkContext
print(____)

# Print Spark version
print(____)
Modifier et exécuter le code