CommencerCommencer gratuitement

Créer des RDD

En PySpark, vous pouvez créer un RDD (Resilient Distributed Dataset) de plusieurs façons. Comme vous connaissez déjà les DataFrames, vous allez partir d’un DataFrame. Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail !

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez un DataFrame à partir de la liste fournie, nommé df.
  • Convertissez le DataFrame en RDD.
  • Collectez et affichez le RDD obtenu.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a DataFrame
df = spark.____("salaries.csv", header=True, inferSchema=True)

# Convert DataFrame to RDD
rdd = df.____

# Show the RDD's contents
rdd.____
print(rdd)
Modifier et exécuter le code