RDD à partir de collections parallélisées

Un RDD (Resilient Distributed Dataset ou ensemble de données distribué résilient) est l'abstraction de base dans Spark. Il s'agit d'une collection d'objets distribuée et immuable. Étant donné que RDD est un type de données fondamental et constitue l’épine dorsale de Spark, il est important que vous compreniez comment le créer. Dans cet exercice, vous allez créer votre premier RDD dans PySpark à partir d'une collection de mots.

Rappelez-vous qu'un SparkContext sc se trouve déjà dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Créez un RDD nommé RDD à partir d'une liste de mots Python.
Confirmez que l'objet créé est un RDD.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))

Modifier et exécuter le code