IniziaInizia gratis

RDD da collezioni parallelizzate

Il Resilient Distributed Dataset (RDD) è l’astrazione di base in Spark. È una collezione distribuita e immutabile di oggetti. Poiché l’RDD è un tipo di dato fondamentale e portante in Spark, è importante capire come crearlo. In questo esercizio creerai il tuo primo RDD in PySpark a partire da una collezione di parole.

Ricorda: nel tuo workspace è già disponibile uno SparkContext sc.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un RDD chiamato RDD a partire da una lista Python di parole.
  • Verifica che l’oggetto creato sia un RDD.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])

# Print out the type of the created object
print("The type of RDD is", ____(RDD))
Modifica ed esegui il codice