Utilisation des DataFrame
La structure de données centrale de Spark est le jeu de données distribué résilient (RDD). Il s'agit d'un objet de bas niveau qui permet à Spark d'opérer sa magie en répartissant les données sur plusieurs nœuds du cluster. Cependant, les RDDs sont difficiles à travailler directement, c'est pourquoi, dans ce cours, vous utiliserez l'abstraction Spark DataFrame construite au-dessus des RDDs.
Le DataFrame de Spark a été conçu pour se comporter en grande partie comme un tableau SQL (un tableau avec des variables dans les colonnes et des observations dans les lignes). Non seulement ils sont plus faciles à comprendre, mais les DataFrame sont également mieux optimisés pour les opérations compliquées que les RDDs.
Lorsque vous commencez à modifier et à combiner des colonnes et des lignes de données, il existe de nombreuses façons d'arriver au même résultat, mais certaines prennent souvent beaucoup plus de temps que d'autres. Lorsque vous utilisez RDDs, c'est au data scientist de trouver la bonne façon d'optimiser la requête, mais l'implémentation de DataFrame intègre une grande partie de cette optimisation !
Pour commencer à travailler avec les DataFrame Spark, vous devez d'abord créer un objet SparkSession
à partir de votre SparkContext
. Vous pouvez considérer le site SparkContext
comme votre connexion au cluster et le site SparkSession
comme votre interface avec cette connexion.
N'oubliez pas que pour le reste de ce cours, vous disposerez d'un site SparkSession
appelé spark
dans votre espace de travail !
Lequel des éléments suivants est un avantage des DataFrame de Spark par rapport aux RDDs ?
Cet exercice fait partie du cours
Introduction à PySpark
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
