RDD da collezioni parallelizzate
Il Resilient Distributed Dataset (RDD) è l’astrazione di base in Spark. È una collezione distribuita e immutabile di oggetti. Poiché l’RDD è un tipo di dato fondamentale e portante in Spark, è importante capire come crearlo. In questo esercizio creerai il tuo primo RDD in PySpark a partire da una collezione di parole.
Ricorda: nel tuo workspace è già disponibile uno SparkContext sc.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea un RDD chiamato
RDDa partire da una lista Python di parole. - Verifica che l’oggetto creato sia un RDD.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create an RDD from a list of words
RDD = sc.____(["Spark", "is", "a", "framework", "for", "Big Data processing"])
# Print out the type of the created object
print("The type of RDD is", ____(RDD))