CommencerCommencez gratuitement

Créer des RDD

En PySpark, vous pouvez créer un RDD (Resilient Distributed Dataset) de plusieurs façons. Comme vous connaissez déjà les DataFrames, vous allez partir d’un DataFrame. Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail !

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>
Voir le cours

Instructions de l’exercice

  • Créez un DataFrame à partir de la liste fournie, nommé df.
  • Convertissez le DataFrame en RDD.
  • Collectez et affichez le RDD obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Modifier et exécuter le code