Qu'est-ce que Spark ?
Spark est une plateforme de calcul en grappe. Spark vous permet de répartir les données et les calculs sur des clusters à plusieurs nœuds (considérez chaque nœud comme un ordinateur distinct). Le fractionnement de vos données permet de travailler plus facilement avec de très grands ensembles de données, car chaque nœud ne travaille qu'avec une petite quantité de données.
Comme chaque nœud travaille sur son propre sous-ensemble des données totales, il effectue également une partie des calculs totaux requis, de sorte que le traitement des données et les calculs sont effectués en parallèle sur les nœuds de la grappe. C'est un fait que le calcul parallèle peut rendre certains types de tâches de programmation beaucoup plus rapides.
Toutefois, l'augmentation de la puissance de calcul s'accompagne d'une plus grande complexité.
Décider si Spark est ou non la meilleure solution pour votre problème demande un peu d'expérience, mais vous pouvez vous poser des questions comme celles-ci :
- Mes données sont-elles trop volumineuses pour être traitées sur une seule machine ?
- Mes calculs peuvent-ils être facilement parallélisés ?
Êtes-vous impatient d'en savoir plus sur Spark ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
