Map e Collect

Il principale metodo con cui puoi manipolare i dati in PySpark è map(). La trasformazione map() prende in input una funzione e la applica a ogni elemento dell’RDD. Può essere usata per fare molte cose: dal recuperare il sito web associato a ciascun URL nella nostra raccolta fino a semplicemente elevare al quadrato dei numeri. In questo semplice esercizio userai la trasformazione map() per elevare al cubo ogni numero dell’RDD numbRDD che hai creato in precedenza. Poi, salverai tutti gli elementi in una variabile e infine stamperai l’output.

Ricorda: hai già uno SparkContext sc e numbRDD disponibili nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza corso

Istruzioni dell'esercizio

Crea una trasformazione map() che elevi al cubo tutti i numeri in numbRDD.
Raccogli i risultati in una variabile numbers_all.
Stampa l’output dalla variabile numbers_all.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)

# Collect the results
numbers_all = cubedRDD.____()

# Print the numbers from numbers_all
for numb in ____:
	print(____)

Modifica ed esegui il codice