Créer des RDD
En PySpark, vous pouvez créer un RDD (Resilient Distributed Dataset) de plusieurs façons. Comme vous connaissez déjà les DataFrames, vous allez partir d’un DataFrame. Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail !
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez un DataFrame à partir de la liste fournie, nommé
df. - Convertissez le DataFrame en RDD.
- Collectez et affichez le RDD obtenu.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)
# Convert DataFrame to RDD
rdd = df.____
# Show the RDD's contents
rdd.____
print(rdd)