Map e Collect
Il principale metodo con cui puoi manipolare i dati in PySpark è map(). La trasformazione map() prende in input una funzione e la applica a ogni elemento dell’RDD. Può essere usata per fare molte cose: dal recuperare il sito web associato a ciascun URL nella nostra raccolta fino a semplicemente elevare al quadrato dei numeri. In questo semplice esercizio userai la trasformazione map() per elevare al cubo ogni numero dell’RDD numbRDD che hai creato in precedenza. Poi, salverai tutti gli elementi in una variabile e infine stamperai l’output.
Ricorda: hai già uno SparkContext sc e numbRDD disponibili nel tuo workspace.
Questo esercizio fa parte del corso
Fondamenti di Big Data con PySpark
Istruzioni dell'esercizio
- Crea una trasformazione
map()che elevi al cubo tutti i numeri innumbRDD. - Raccogli i risultati in una variabile
numbers_all. - Stampa l’output dalla variabile
numbers_all.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)