Du RDD vers le DataFrame

À l'instar des RDD, les DataFrame sont des structures de données immuables et distribuées dans Spark. Même si les RDD constituent une structure de données fondamentale dans Spark, il est plus facile de travailler avec des données dans des DataFrame que dans des RDD. Il est donc nécessaire de comprendre comment convertir un RDD en DataFrame.

Dans cet exercice, vous allez d'abord créer un RDD en utilisant la liste sample_list qui vous est déjà fournie. Ce RDD contient une liste de tuples ('Mona',20), ('Jennifer',34),('John',20), ('Jim',26), et chaque tuple contient le nom de la personne et son âge. Vous allez ensuite créer un DataFrame en utilisant te RDD et le schéma (qui est la liste de « Name » et « Age ») et enfin confirmer que le résultat est un DataFrame PySpark.

Rappelez-vous qu’un SparkContext sc et une SparkSession spark se trouvent déjà dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Créez un RDD à partir de la liste sample_list.
Créez un DataFrame PySpark en utilisant le schéma et le RDD ci-dessus.
Confirmez que le résultat est bien un DataFrame PySpark.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create an RDD from the list
rdd = sc.____(sample_list)

# Create a PySpark DataFrame
names_df = spark.createDataFrame(____, ____=['Name', 'Age'])

# Check the type of names_df
print("The type of names_df is", ____(names_df))

Modifier et exécuter le code