Utiliser Spark en Python

La première étape de l'utilisation de Spark consiste à se connecter à un cluster.

En pratique, la grappe sera hébergée sur une machine distante connectée à tous les autres nœuds. Il y aura un ordinateur, appelé maître, qui gérera la répartition des données et les calculs. Le maître est connecté aux autres ordinateurs de la grappe, appelés " travailleurs". Le maître envoie aux travailleurs les données et les calculs à effectuer, et ceux-ci renvoient leurs résultats au maître.

Lorsque vous débutez avec Spark, il est plus simple de faire fonctionner un cluster localement. Ainsi, pour ce cours, au lieu de se connecter à un autre ordinateur, tous les calculs seront exécutés sur les serveurs de DataCamp dans un cluster simulé.

La création de la connexion est aussi simple que la création d'une instance de la classe SparkContext. Le constructeur de la classe prend quelques arguments facultatifs qui vous permettent de spécifier les attributs du cluster auquel vous vous connectez.

Un objet contenant tous ces attributs peut être créé à l'aide du constructeur SparkConf(). Consultez la documentation pour plus de détails !

Pour le reste de ce cours, vous disposerez d'un site SparkContext appelé sc dans votre espace de travail.

Comment se connecter à un cluster Spark depuis PySpark ?

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>

Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice