Du RDD vers le DataFrame
À l'instar des RDD, les DataFrame sont des structures de données immuables et distribuées dans Spark. Même si les RDD constituent une structure de données fondamentale dans Spark, il est plus facile de travailler avec des données dans des DataFrame que dans des RDD. Il est donc nécessaire de comprendre comment convertir un RDD en DataFrame.
Dans cet exercice, vous allez d'abord créer un RDD en utilisant la liste sample_list
qui vous est déjà fournie. Ce RDD contient une liste de tuples ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26)
, et chaque tuple contient le nom de la personne et son âge. Vous allez ensuite créer un DataFrame en utilisant te RDD et le schéma (qui est la liste de « Name » et « Age ») et enfin confirmer que le résultat est un DataFrame PySpark.
Rappelez-vous qu’un SparkContext sc
et une SparkSession spark
se trouvent déjà dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Créez un RDD à partir de la liste
sample_list
. - Créez un DataFrame PySpark en utilisant le schéma et le RDD ci-dessus.
- Confirmez que le résultat est bien un DataFrame PySpark.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create an RDD from the list
rdd = sc.____(sample_list)
# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])
# Check the type of names_df
print("The type of names_df is", ____(names_df))